并 行 计 算是 一 种 通过 执行 多 条 指令 来 解决 大 型 复杂 计算 问题 的 有 效 算法 ， 可 以 显著 提高 计算 机 系统 的 计算 速度 和 处 理 能 力 。R 语 言 是 目前 非常 流行 的 一 种 开源 程序 语 
言 ， 在 统计 学 和 生物 学 等 学 科 中 得 到 了 广泛 应 用 。 本 书 成 功 地 借助 于 R 语 言 实现 了 并 行 计算 的 多 种 有 效 算法 ， 并 且 通 过 案例 分 析 了 如 何 运用 R 语 言 执 行 并 行 计算 。 同 时 详细 
介绍 了 并 行 计算 中 的 R 程 序 包 的 使 用 ， 如 SPRINT 包 提供 了 一 套 从 R 中 调用 并 行 计算 的 MPI 函 数 。 全 书 案 例 简单 易 懂 ， 程 序 翔实 ， 氢 述 清晰 。 本 书 4 位 作者 都 是 计算 机 专业 的 
资深 专家 和 学 者 ， 从 事 并 行 计算 多 年 ， 发 表 了 众多 优秀 成 果 。 本 书 的 引进 有 益 于 读者 运用 R 语 言 进行 并 行 计算 的 研究 ， 读 者 可 以 结合 实际 应 用 来 学 习 本 书 中 讨论 的 算法 和 
模型 。 


本 书 的 翻译 得 到 了 国家 自然 科学 基金 (项 目 编 号 71461005) 和 广西 高 校 数据 分 析 与 计 和 工 重 点 实验 室 的 资助 。 特 别 感谢 桂林 电子 科技 大 学 研究 生 姚 家 进 、 郭 梦 菲 、 秦 文 
哲 在 翻译 本 书 中 所 做 的 出 色 工 作 。 


由 于 时 间 和 水 平 所 限 ， 难 免 会 有 不 当 之 处 ， 和 希望 同行 和 读者 多 加 指正 和 批评 。 


我 们 正 处 于 信息 爆炸 时 代 。 从 个 人 到 全 世界 ， 生 活 中 的 一 切 都 变 得 越 来 越 与 物 联 网 实时 关联 。 据 预测 ， 到 2020 年 ， 世 界 上 的 数据 将 超过 现在 的 10 倍 ， 达 到 惊人 的 44 泽 
字 节 (1 泽 字 节 相 当 于 2500 亿 张 DVD) 。 为 了 解决 大 数据 的 规模 和 速度 问题 ， 我 们 需要 巨大 的 计算 、 内 存 和 磁盘 资源 ， 而 为 此 就 需要 并 行 计算 。 


尽管 使 用 的 时 间 不 长 ， 但 R 作 为 一 种 开源 统计 编程 语言 ， 逐 渐 成 为 人 们 分 析 数 据 的 关键 基础 技术 之 一 。 我 敢 说 R 现 在 是 “数据 科学 家 的 主流 编程 语言 之 一 。 


当然 ， 数 据 科 学 家 可 能 会 部 署 许多 其 他 工具 来 处 理 大 数据 的 一 些 困难 问题 ， 如 Python、SAS、SPSS 或 MATLAB。 然 而 ， 自 从 1997 年 以 来 ， 随 着 开源 语言 的 深入 发 展 ，R 
语言 非常 流行 ， 在 20 年 中 开发 了 许多 存放 于 CRAN 镜 像 站 点 的 R 添 加 包 ， 这 些 添 加 包 适 用 于 几乎 所 有 形式 的 数据 分 析 ， 从 小 型 数值 矩阵 到 庞大 的 符号 数据 集 ， 如 生物 分 子 
DNA。 事 实 上 ， 我 认为 R 语 言 正成 为 “事实 上 ”的 数据 科学 脚本 语言 ， 它 可 以 融合 许多 不 同类 型 的 高 度 复杂 数据 的 分 析 方 法 。 


R 语 言 自 身 总 是 按照 单线 程 来 实现 的 ， 而 且 其 原 有 的 程序 设计 并 没有 应 用 并 行 机 制 。 然 而 ， 为 了 达到 茶 些 功能 的 并 行 目的 以 及 使 用 并 行 处 理 框架 ，R 语 言 需 要 借助 于 某 
些 特别 开发 的 外 部 添加 包 。 我 们 将 重点 关注 一 些 目前 技术 范围 内 可 用 的 最 好 的 并 行 算法 。 


在 本 书 中 ， 我 们 将 介绍 并 行 计算 的 各 个 方面 ， 从 单程 序 多 数据 (SPMD) 到 单 指令 多 数据 (SIMD) 向 量 处 理 ， 包 括 用 有 添加 包 patallel 来 利用 R 内 置 的 多 核 功能 、 用 消息 
传递 接口 (MPI) 进行 消息 传递 、 用 OpenCL 处 理 通用 GPU (GPGPU) 的 并 行 性 。 我 们 还 将 探讨 并 行 性 的 不 同 框架 方法 ， 从 利用 任务 分 配 的 负载 均衡 到 网 格 空间 处 理 。 我 们 
将 通过 Hadoop 了 解 云 计算 中 更 通用 的 批量 数据 处 理 ， 以 及 集群 计算 中 的 热门 新 技术 Apache Spark， 它 更 适合 大 规模 的 实时 数据 处 理 。 


我 们 甚至 会 探索 如 何 使 用 真正 的 数 百 万 英镑 的 超级 计算 机 。 是 的 ， 我 知道 你 可 能 没有 这 样 的 计算 机 ， 但 是 在 本 书 中 ， 我 们 会 告诉 你 如 何 使 用 它 ， 以 及 并 行 计 算 的 效 


果 。 说 不 定 ， 随 着 知识 的 更 新 ， 你 可 以 来 到 当地 的 超级 计算 机 中 心 ， 并 说 服 他 们 让 你 进行 一 些 大 规模 的 并 行 计算 ! 
本 书 中 展示 的 所 有 编码 示例 都 具有 原创 性 ， 选 择 这 些 示例 的 原因 是 为 了 不 复制 其 他 书 中 可 能 遇 到 的 例子 。 亲 爱 的 读者 ， 选 择 这 些 代码 的 原因 是 希望 能 让 你 与 普通 读者 


有 一 点 不 同 。 作 为 作者 ， 我 们 非常 希望 你 享受 这 个 过 程 。 


本 书 内 容 

第 1 章 快速 地 展示 如 何 利 用 有 R 的 并 行 版 本 lapply () 来 开发 笔记 本 电脑 的 多 核 处 理 功能 。 我 们 也 通过 亚马逊 网 络 服务 简要 介绍 云 计算 的 巨大 运行 能 力 。 

第 2 章 涵盖 标准 的 消息 传递 接口 (MPI) ， 它 是 实现 高 级 并 行 算法 的 关键 技术 。 在 本 章 中 ， 你 将 学 习 如 何 使 用 两 个 不 同 的 R MPI 添 加 包 Rmpi 和 pbdMPI 以 及 底层 通信 子 系 
统 的 OpenMPI 实 现 。 


第 3 章 通 过 开发 一 个 详细 的 Rmpi 工 作 示 例 完 成 MPI 过 程 ， 说 明 如 何 使 用 非 阻 塞 通信 和 局 部 进程 间 消 息 交 换 模 式 ， 这 是 实现 空间 网 格 并 行 所 必需 的 。 


第 4 章 介绍 在 真实 的 超级 计算 机 上 运行 并 行 代码 的 经 验 。 本 章 还 详细 介绍 开发 SPRINT 的 过 程 ， 即 一 个 用 C 语 言 编 写 的 可 以 在 笔记 本 电脑 以 及 超级 计算 机 上 运行 的 并 行 
计算 的 R 包 。 此 外 ， 还 说 明 如 何 使 用 自己 本 地 编码 的 高 性 能 并 行 算法 扩展 此 添加 包 ， 并 使 其 可 访问 R。 


第 5 章 展 示 如 何 通 过 ROpenCL 添 加 包 直 接应 用 笔记 本 电脑 的 图 形 处 理 单 元 (GPU) 的 大 规模 并 行 和 向 量 处 理 能 力 ， 该 添加 包 是 开放 式 计 算 语言 OpenCL 的 一 个 RR 包装 。 
第 6 章 介 绍 并 行 编程 及 其 性 能 的 科学 原理 ， 通 过 强调 想 要 避免 的 潜在 陷阱 来 讲述 最 好 的 实践 艺术 ， 并 初步 展望 了 并 行 计算 系统 的 未 来 。 


在 线 章节 “Apache Spa-R-k” 介 绍 了 Apache Spatk， 现 在 它 成 为 继 Hadoop 之 后 最 流行 的 分 布 式 存 储 大 数据 的 并 行 计算 环境 。 你 将 学 习 如 何 设置 和 安装 Spatk 集 群 ， 以 及 如 
何 直 接 从 R 中 利用 Spatk 自 己 的 数据 框 提 取 。 


一 章 可 以 在 Packt 出 版 社 的 主页 上 下 载 : https://www.packtpub.com/sites /default/files /downloads/B03974_BonusChapter.pdf. 


不 需要 从 头 到 尾 依 次 阅读 本 书 ， 大 多 数 情 况 下 ， 每 一 章节 都 是 可 以 独立 阅读 的 。 
阅读 准备 


要 运行 本 书 中 的 代码 ， 你 需要 一 个 最 新 配置 的 多 核 笔 记 本 电脑 或 台式 计算 机 。 你 还 需要 一 个 合适 带宽 的 网 络 连接 ， 用 于 从 CRAN (R 包 的 主要 在 线 存 储 库 ) 下 载 R 和 各 
种 R 代 码 库 。 


本 书 中 的 例子 主要 使 用 RStudio 0.98.1062、64 位 R 3.1.0 (CRAN 发 行 版 ) 开发， 运行 于 2014 年 发 行 的 Apple MacBook Pro OS X 10.9.4 (具有 2.6GHz Intel Core i5 处 理 器 和 
16GB 内 存 ) 。 当 然 ， 所 有 这 些 例子 也 应 该 适用 最 新 版 本 的 R。 


本 书 中 的 一 些 示 例 将 无 法 使 用 Microsoft Windows 运 行 ， 但 是 它们 应 该 可 以 在 Linux 的 其 他 版 本 上 运行 。 每 章 将 详细 介绍 所 需 的 额外 的 外 部 库 或 运行 时 的 系统 要 求 ， 并 提 
供 有 关 如 何 访 问 和 安装 RCM 的 信息 。 


读者 人 群 


本 书 适 用 于 中 高 级 R 开 发 人 员 ， 使 之 掌握 利用 并 行 计算 功能 来 执行 长 时 间 运 行 的 计算 ， 并 分 析 大 量 数据 。 你 需要 具有 一 定 的 R 编 程 知识 ， 并 且 是 一 个 能 力 强 大 的 程序 
员 ， 这 样 你 可 以 阅读 和 理解 低级 语言 (如 C/C++) ， 并 熟悉 代码 编译 过 程 。 你 可 以 认为 自己 是 新 型 数据 科学 家 ， 即 一 个 熟练 的 程序 员 和 数学 家 。 


本 书 约定 
在 本 书 中 ， 你 会 发 现 一 些 区 分 不 同 信息 的 文本 样式 。 以 下 是 这 些 样式 的 一 些 例子 及 其 含义 。 


映射 构造 了 一 个 稍 卡 儿 秩 / 网 格 。 


代码 段 如 下 : 


Worker makeSquareGrid <- function(comm,dim) { 
grid <- 1000 + dim # assign comm handle for this size grid 
dims <- c(dim, dim) # dimensions are 2D, size: dim X dim 
periods <- c(FALSE,FALSE) # no wraparound at outermost edges 
if (mpi.cart.create (commold=comm, dims, periods, commcart=g9rid) ) 


{ 


return (grid) 


| 


return(-1) # An MPI error occurred 


当 我 们 希望 注意 到 代码 段 的 特定 部 分 时 ， 相 关 行 或 条 目 将 加 粗 : 


# Namespace file for sprint 
useDynLib (sprint) 


export (phello) 
export (ptest) 
export (pcor) 


任何 命令 行 输入 或 输出 如 下 所 示 : 


$ mpicc -o mpihello.o mpihello.c 


$ mpiexec -n 4 ./mpihello.o 
新 术语 和 重要 词 都 以 黑体 显示 。 
表示 警告 或 重要 提示 。 


Q 表示 提示 和 技巧 。 


下 载 示例 代码 


可 以 从 http://www.packtpub.com 通 过 个 人 账号 下 载 你 所 购买 书籍 的 示例 源码 。 如 果 你 是 从 其 他 途径 购买 的 ， 可 以 访问 http://www.packtpub.com/support， 完 成 账号 注 
册 ， 就 可 以 直接 通过 邮件 方式 获得 相关 文件 。 


你 也 可 以 访问 华章 网 站 http://www.hzbook.com， 通 过 注册 并 登录 个 人 账号 ， 下 载 本 书 的 源 代码 。 
下 载 书 中 彩 图 


我 们 还 提供 了 一 个 PDF 文件 ， 其 中 包含 本 书 中 使 用 的 截图 和 彩 图 ， 以 帮助 读者 更 好 地 了 解 输出 的 变化 。 文 件 可 以 从 以 下 地 址 下 
载 : http://www.packtpub.com/sites/default/ files /downloads /MasteringParallelProgrammingwithR_ColorImages.pdf. 


天 于 作者 


西蒙 R. 查 普尔 (Simon R.Chapple) 是 一 位 经 验 丰富 的 解决 方案 架构 师 和 首席 软件 工程 师 ， 从 事 数据 分 析 和 医疗 信息 系统 解决 方案 和 应 用 的 开发 超过 25 年 。 他 也 是 超级 
计算 机 HPC 和 大 数据 处 理 方面 的 专家 。 


Simon 是 Datalytics 科 技 有 限 公司 的 首席 技术 官 和 管理 合伙 人 ， 带 领 一 个 团队 建设 下 一 代 大 规模 数据 分 析 平 台 ， 该 平台 建立 在 一 组 由 高 性 能 工具 、 框 架 和 系统 所 构成 的 可 
定制 的 工具 集合 基础 上 ， 可 以 使 从 数据 采集 、 分 析 到 呈现 的 整个 实时 处 理 周 期 ， 轻 松 地 部 署 到 任何 已 有 的 I 操作 环境 中 。 


此 前 ， 他 在 Atidhia 信 息 公 司 担任 产品 创新 总 监 ， 为 苏格兰 的 医疗 服务 供应 商 建立 了 多 个 新 系统 ， 包 括 为 苏格兰 18 周 转 诊治 疗 和 癌症 患者 的 管理 而 提供 的 一 体 化 病人 路 
径 跟 踪 系 统 ， 该 系统 应 用 了 10 个 单独 数据 系统 的 集成 (减少 病人 等 待 时 间 ， 从 而 提供 最 好 的 服务 ) 。 他 还 利用 公共 云 托 管 监测 系统 ， 为 实时 化 疗 患 者 建立 了 专门 的 移动 系 
统 ， 该 系统 在 澳大利亚 进行 了 临床 试验 ， 受 到 护士 和 病人 的 高 度 赞扬 ，“ 就 像 在 你 的 起 居室 里 有 一 位 护士 :…… 希望 所 有 的 化 疗 病 人 每 天 都 有 天 使 般 的 安全 舒适 的 护理 环 


Simon 也 是 ROpenCL 开 源 软件 包 的 作者 之 一 ， 该 添加 包 使 得 用 RR 编写 的 统计 程序 可 以 应 用 图 形 加 速 器 芯片 中 的 并 行 计算 能 力 。 


对 于 SPRINT 这 一 章 ， 我 特别 要 感谢 爱丁堡 并 行 计算 中 心 的 同事 以 及 本 书 审阅 者 Willem Ligtenberg, Joe McKavanagh 和 Steven Sanderson， 谢 谢 他 们 的 积极 反馈 。 我 还 要 感 
谢 Packt 出 版 社 的 编辑 团队 为 本 书 的 最 终 出 版 付出 的 辛勤 劳动 。 感 谢 我 的 妻子 和 儿子 的 理解 ， 他 们 给 我 珍贵 的 时 间 使 我 成 为 一 名 作者 ， 谨 以 此 书 献 给 我 爱 的 Heather 和 
Adam. 


伊 丽 - 特 鲁 普 (Eilidh Troup) 是 爱丁堡 大 学 EPCC 的 应 用 顾问 。 她 拥有 Glasgow 大 学 的 遗传 学 学 位 ， 现 在 专注 于 为 广大 用 户 尤其 是 生物 学 家 提供 高 性 能 计算 。Eilidh 致 力 
于 各 种 软件 项 目 ， 包 括 为 基于 网 络 的 科学 数据 存储 库 提供 简单 的 并 行 R 接 口 (SPRINT) 和 SEEK。 


托 斯 顿 - 福 斯 特 (Thorsten Forster) 是 爱丁堡 大 学 的 数据 科学 研究 员 。 他 具有 统计 学 和 计算 机 科学 背景 ， 并 获得 了 生物 医学 科学 博士 学 位 ， 在 这 些 交叉 学 科研 究 方面 拥 
有 超过 10 年 的 经 验 。 


Thorsten 利 用 统计 学 和 机 器 学 习 (如 微 阵列 和 下 一 代 测 序 ) 研究 生物 医学 的 大 数据 分 析 方 法 ， 他 曾经 是 SPRINT 项 目的 项 目 经 理 ， 该 项 目的 目标 是 允许 潜在 用 户 使 用 R 
统计 编程 语言 对 大 型 生物 数据 集 应 用 并 行 分 析 解 决 方案 。 他 还 是 Fios Genomics 公 司 的 联合 创始 人 ， 该 公司 是 一 家 大 学 锋 化 的 提供 生物 医学 大 数据 研究 的 数据 分 析 服 务 公 
司 。 


目前 ，Thorsten 的 工作 是 设计 用 于 诊断 新 生 儿 细菌 感染 的 基因 转移 分 类 器 、 分 析 巨 噬 细 胞 干扰 素 激活 的 转移 谱 、 调 查 胆固醇 对 感染 免疫 的 作用 ， 以 及 研究 导致 儿童 气 
喘 的 基因 因素 。 


Thorsten 的 完整 资料 可 以 在 http://tinyutl.com/ThorstenForsterUEDIN 上 获得 。 


特 伦 斯 斯 隆 (Terence Sloan) 是 爱丁堡 大 学 高 性 能 计算 中 心 EPCC 的 软件 开发 小 组 经 理 。 他 在 苏格兰 中 小 企业 、 匡 国 公司 以 及 欧洲 和 全 球 合作 方面 拥有 超过 25 年 的 管理 
和 参与 数据 科学 和 高 性 能 计算 项 目的 经 验 。 


Terry 获 得 过 Wellcome Trust (基金 号 086696/Z/08/Z) ~ BBSRC (基金 号 BB/J019283/1) 研究 基金 ， 以 及 帮助 开发 RR 语言 SPRINT 添 加 包 的 3 个 EPSRC 分 布 式 计算 科学 基 
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Sle ”简单 的 R 并 行 性 


在 本 章 中 ， 你 将 通过 快速 学 习 开 友 笔记 本 电脑 的 多 核 处 理 能 力 来 开始 探索 R 语 言 的 并 行 性 的 旅程 。 我 们 首先 看 看 如 何 利 用 云 的 巨大 计算 能 力 。 


你 将 学 习 lapply () 及 其 变 体 ， 它 们 是 由 R 的 核心 并 行 包 以 及 可 以 让 我 们 利用 亚马逊 网 络 服务 (AWS) 和 弹性 地 图 减少 (EMR) 服务 的 segue 包 支持 的 。 对 于 后 者 ， 
你 将 需要 AWS 建 立 的 账户 。 


本 章 使 用 的 例子 是 一 个 称 为 亚 里 十 多 德 数 迹 的 古老 谜 题 的 迭代 求解 程序 。 和 希望 这 对 于 你 是 新 的 乐 西 ， 并 可 以 激 起 你 的 兴趣 。 特 别 选 择 了 一 个 当 并 行 运行 代码 时 会 出 现 
的 一 个 重要 问题 〈 即 不 平衡 计算 ) 来 进行 演示 。 它 也 将 有 助 于 友 展 我 们 的 性 能 基准 测试 的 技能 (在 并 行 性 中 的 一 个 重要 考虑 ) ， 即 测量 整体 计算 效率 。 


本 章 的 例子 使 用 Rstudio 0.98.1062 以 及 64 位 R 3.1.0 (CRAN 分 布 ) ， 运 行 在 mid-2014 苹 果 MacBook Pro X 10.9.4 上 (处 理 器 是 2.6GHz 的 英特尔 酷 害 i5， 内 存 为 
16GB) 。 本 章 中 的 一 些 例子 无 法 在 Microsoft Windows 上 运行 ， 但 应 该 可 以 在 Linux 的 所 有 版 本 上 运行 。 


1.1 WE af 


FSR A Ae ETS, CENA. Weel RTS 12198919 EAS, SENATE ERU SIT MITES 
角 对 应 和 连 线 上 的 小 薄板 的 编号 相 加 都 是 38。 在 图 1-1 中 ， 左 边 是 一 个 尚未 解决 的 迹 题 ， 展 示 放 置 小 落 板 从 左上 角 到 右上 角 的 六 角 网 格 布局 。 这 幅 图 的 旁边 ， 展 示 了 谜 题 的 
部 分 解 ， 其 中 两 行 (小 薄板 从 16 和 11 开 始 ) 和 4 条 对 角 绪 加 起 来 都 是 38， 位 置 1、3、8、10、12、17 和 19 是 空 单 元 ， 还 有 7 个 未 填充 的 小 薄板 ， 为 2、8、9、12、13、15 
和 17。 


安排 小 薄板 一 | 只 是 部 分 解 : 
使 每 行 的 和 | : 每 行 的 和 等 
等 于 38 | 于 38 Cell 1 


Cell 12 


有 数学 头脑 的 人 可 能 已 经 注意 到 可 能 的 小 注 板 布局 的 数量 为 19 的 阶乘 。 也 就 是 说 ， 忆 共有 121645100408832000 种 不 同 的 组 合 (忽略 旋转 和 镜面 对 称 ) 。 即 使 利用 现 
代 的 微 处 理 器 ， 显 然 也 需要 相当 一 段 时 间 来 寻找 在 这 12.1 亿 亿 种 组 合 中 的 一 个 有 效 解 。 


我 们 将 使 用 深度 优先 迭代 搜索 算法 来 解决 这 个 迹 题 ， 用 有 限 的 内 存 换取 计算 周期 。 在 不 付出 巨大 代价 的 情况 下 ， 我 们 不 能 轻易 存储 每 一 种 可 能 的 布局 。 


1.1.1 ”求解 程序 的 实现 


我 们 首先 考虑 如 何 表 示 六 角形 板 。 最 简单 的 方法 是 使 用 一 个 长 度 为 19 的 一 维 R 向 量 ， 其 中 向 量 的 指标 表示 六 角形 板 的 第 i 个 单元 。 小 薄板 还 未 放 入 行 中 ， 板 上 向 量 “ 单 
元 ”的 值 应 该 为 数字 0。 


empty board e- iG, 0D D. BD. D.0.0,.0. 0,4,8.0-. 0.0, 0,0. (5.0) 
partial board. é- 5(D,19,0,16,3,1,18,0,5,0,4,0,11,7,6,14,0,10, 0) 


接 下 来 ， 让 我 们 定义 一 个 函数 来 估计 小 薄板 的 布局 是 否 表示 一 个 有 效 解 。 作 为 上 面 工 作 的 一 部 分 ， 我 们 需要 指定 单元 或 “ 行 ”的 不 同 组 合 ， 它 们 相 加 得 到 目标 值 必须 
是 38， 如 下 所 示 : 


all lines <- list ( 


At. 2,3) , a(1, 4,8), c(1,5,10,15,19), 
G(2,5.9,13), G(2.5,11,16), ats 7, £2), 
G(3.6,10,14,17] ; é6(4,5,6, 7), c(4,9,14,18), 
et]. 11.15.78) ; GÍS,9,10.,11;12] GB 13, 17); 
c(12,16,19), c(13,14,15,16], @(17,18,19) 


) 


evaluateBoard <- function (board) 


{ 
for (line in all lines) { 
total <- 0 
for (cell in line) { 
total «- total + board[cell] 


j 


if (total !- 38) return(FALSE) 


j 


return (TRUE) # We have a winner! 
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来 利用 简单 栈 上 的 变化 。 为 了 让 它 有 所 不 同 ， 我 们 将 它 实现 为 类 ， 并 称 为 序列 。 


这 是 一 个 简单 的 $3- 类 序列 ， 它 通过 内 部 维持 向 量 中 栈 的 状态 实现 了 一 个 双 头 / 双 尾 材 : 


sequence <- function() 

{ 
sequence <- new.env() # Shared state for class instance 
sequence$.vec «- vector() # Internal state of the stack 
sequence$getVector «- function() return (.vec) 
sequenceSpushHead «- function(val) .vec ««- c(val, .vec) 
sequence$pushTail «- function(val) .vec ««- c(.vec, val) 
sequence$popHead <- function() { 


val «- .vec[1] 
.Vec ««- .vec[-1] # Update must apply to shared state 
return(val) 


} 


sequence$popTail <- function() { 
val <- .vec[length(.vec) ] 
.vec ««- .vec[-length(.vec) ] 
return (val) 
j 
sequence$size «- function() return( length(.vec) ) 
4 Each sequence method needs to use the shared state of the 
# class instance, rather than its own function environment 


environment (sequence$size) «- as.environment (sequence 
environment (sequence$popHead) «- as.environment (sequence 
environment (sequence$popTail) «- as.environment (sequence 


environment (sequence$pushHead) <- as.environment (sequence 
environment(sequence$pushTail) <- as.environment (sequence 


hr M Jed 


environment (sequence$getVector) <- as.environment (sequence 
class(sequence) «- "sequence" 
return (sequence) 


从 一 些 例子 的 使 用 中 ， 可 以 很 容易 理解 序列 的 实现 ， 如 下 所 示 : 


> S <- sequence () ## Create an instance s of sequence 
> s$pushHead(c(1:5)) ## Initialize s with numbers 1 to 5 
> s$getVector () 

las 3 Bie a 


> s$popHead () ## Take the first element from s 

[1] 1 

> s$getVector () ## The number 1 has been removed from s 
111 2 3 45 

> s$pushTail (1) ## Add number 1 as the last element in s 


> s$getVector () 
fl] 23 45 1 


我 们 几乎 完成 了 。 这 里 是 placeTiles () 函数 的 实现 ，placefTiles () 函数 用 来 执行 深度 优先 搜索 : 


01 placeTiles <- function(cells,board,tilesRemaining) 


02 { 

03 for (cell in cells) { 

04 if (board[cell] != 0) next # Skip cell if not empty 
05 maxTries <- tilesRemaining$size() 

06 for (t in 1:maxTries) { 


07 board[cell] = tilesRemaining$popHead() 


08 retval <- placeTiles (cells, board, tilesRemaining) 
09 if (retvalSSuccess) return(retval) 

10 tilesRemaining$pushTail (board[cell1] ) 

11 } 

12 board[cell] = 0 # Mark this cell as empty 

13 # All available tiles for this cell tried without success 
14 return( list (Success = FALSE, Board = board) ) 

15 } 

16 success <- evaluateBoard (board) 

17 return( list (Success = success, Board = board) ) 

18 } 


该 函数 利用 递归 将 每 一 个 随后 的 小 薄板 放 到 接 下 来 的 可 用 单元 中 。 因 为 最 多 有 19 个 小 济 板 要 放置 ， 所 以 递归 将 下 降 到 最 多 19 的 水 平 上 ( 行 08) 。 递 归 将 在 没有 余下 的 
小 注 板 可 以 放置 到 六 角形 板 上 时 结束 ， 并 且 然 后 对 板 进 行 评估 ( 行 16) 。 一 次 成 功 的 评估 将 立即 展开 递归 栈 ( 行 09) ， 给 调用 者 传送 板 的 最 终 完 成 状态 ( 行 17) 。 一 次 不 
成 功 的 评估 将 递归 调用 的 栈 后 退 一 步 ， 然 后 尝试 下 一 个 余下 的 小 薄板 。 一 旦 一 个 给 定单 元 中 的 所 有 小 薄板 都 用 完了 后 ， 北 归 将 展开 先前 的 单元 ， 尝 试 序列 中 下 一 个 小 泣 


Ax, BIRR, SS. 


函数 placeTiles () 可 以 使 我 们 有 效 地 测试 一 个 部 分 解 ， 让 我 们 尝试 本 章 开 始 的 部 分 小 薄板 放置 。 执 行 以 下 代码 : 


> Board e- 6[0,19,0,16,3,1,1B,0, 5,0,4,0,12,7,5,14,0,10,0) 


> tiles <- sequence () 

> tiles$pushHead(c(2,8,9,12,13,15,17)) 
» cells <= ¢(1,3;,8,10;12;17;15) 

> placeTiles(cells,board, tiles) 
$Success 

[1] FALSE 

$Board 


i11 0 19 Q 326 3 118 05 8B 4 9 


以 下 载 示例 代码 


你 可 以 从 http://www.packtpub.com 上 的 账户 中 下 载 本 书 中 的 示例 代码 。 如 果 你 在 其 他 地 方 购买 了 本 书 ， 可 以 访问 http://www.packtpub.cpm/support 并 注册 ， 示 例 代 码 文 


件 将 通过 电子 邮件 发 给 你 。 


可 以 通过 以 下 步骤 下 载 代码 文件 : 


-使 用 你 的 电子 邮件 地 址 和 密码 登录 或 注册 我 们 的 网 站 。 


- 鼠标 是 停 在 顶部 的 SUPPORT 选 项 卡 上 。 


: # Code Downloads&E rata; 


: 在 Search 框 中 输入 书 名 。 


. 选择 你 想 下 载 代码 文件 的 书 。 


. 从 下 拉 菜 单 中 选择 你 是 从 哪里 购买 这 本 书 的 。 


: 3X Code Download. 


你 还 可 以 通过 在 Packt 出 版 社 网 站 中 的 本 书 网 页 上 单 击 Code Files 按 钮 来 下 载 该 代码 文件 。 这 个 页 面 可 以 通过 在 Seatch 框 输入 书 名 来 访问 。 请 注意 ， 你 需要 登录 到 1 


Packt 账 户 。 
一 旦 下 载 了 文件 ， 请 确保 你 的 解压 缩 或 提取 文件 程序 是 最 新 版 本 : 
: Windows 系 统 的 WinRAR/7-Zip 


: Mac 系 统 的 Zipeg/iZip/UnRarX 


L 


D 


的 


: Linux 系 统 的 7-Zip/PeaZip 


本 书 的 代码 包 也 存储 在 https://github.com/PacktPublishing/repo-sitoryname 上 的 GitHub 中 。 从 https://github.com/PacktPublishing/ 上 丰富 的 书籍 目录 和 视频 中 ， 我 们 也 可 以 
下 载 其 他 的 代码 包 。 把 它们 找 出 来 ! 


遗憾 的 是 ， 我 们 的 部 分 解 并 不 会 产生 一 个 完全 解 。 显 然 ， 我 们 还 需要 更 加 努力 。 


1.1.2 ”改进 求解 程序 


在 我 们 讨论 并 行 求解 程序 之 前 ， 首 先 研究 目前 的 串 行 执行 的 效率 。 在 现 有 的 place-Tiles () 实现 中 ， 放 置 六 角形 小 薄板 直到 板 完成 ， 然 后 对 它 进行 评估 。 我 们 以 前 测 
试 的 部 分 解 有 7 个 未 处 理 的 单元 ， 需 要 调用 7! =5040 次 evaluateBoard () ,并且 总 共有 13699 种 小 薄板 放置 方法 。 


我 们 可 以 进行 的 最 明显 的 改 展 是 当 我 们 放置 小 落 板 时 对 每 个 小 薄板 进行 测试 ， 然 后 检查 目前 的 部 分 解 是 否 是 正确 的 ， 而 不 是 等 到 所 有 的 小 薄板 都 放置 完 。 直 观 地 说 ， 
这 将 显著 地 减少 我 们 必须 检测 的 六 角形 板 的 布局 数量 。 让 我 们 实现 这 一 改变 ， 然 后 比较 性 能 的 差异 ， 并 了 解 从 这 样 额外 的 实现 工作 中 市 来 的 收益 : 


cell lines <- list( 
Lise GUL.2,84, c(1,4,8), G(1,5,10,15,19) J, SCell ií 
# Cell lines 2 to 18 removed for brevity 
Lee CII2,15,19), Cerny, 26,39) , 6(1,5,10,15,19) 3 #Cell 19 
) 
evaluateCell <- function (board,cellplaced) 
{ 
for (lines in cell lines[cellplaced]) { 
for (line in lines) { 
bobal z= 0 
checkExact «- TRUE 
for (cell in line) { 
if (board[cell] == 0) checkExact <- FALSE 
else total «- total + board[cell] 
} 
if ((checkExact && (total != 38)) || total > 38) 
return (FALSE) 


j 


return (TRUE) 


为 提高 效率 ，evaluateCell () 函数 确定 需要 检查 哪些 行 ， 基 于 执行 直接 检查 cell-Lines 放 置 的 单元 。cell-Lines 数 据 结构 很 容易 从 all_Lines 中 进行 编译 (你 甚至 可 以 编 
写 一 些 简单 的 代码 来 生成 已 ) 。 板 上 的 每 一 个 单元 都 需要 3 个 特定 行进 行 测试 。 因 为 任意 给 定 的 测试 行 可 能 没有 填 满 小 薄板 ， 所 以 evaluateCell () 包含 了 一 个 检查 来 确保 
它 只 适用 于 当 行 完整 时 和 为 38 的 测试 。 对 于 一 个 不 完整 行 ， 检 测 是 为 了 保证 和 不 超过 38。 


我 们 现在 可 以 增强 placeTiles () 来 调用 evaluateCell () ， 如 下 所 示 : 


Ol placeTiles <- function(cells,board,tilesRemaining) 


06 for (t in 1:maxTries) { 

07 board[cell] = tilesRemaining$popHead() 

一 一 if (evaluateCell(board,cell)) { 

08 retval <- placeTiles (cells, board, tilesRemaining) 
09 if (retval$Success) return(retval) 

++ } 

10 tilesRemainingSpushTail (board [cell] ) 

Y } 


测量 执行 时 间 


在 应 用 这 种 改变 之 前 ， 需 要 先 基 准 测试 当前 的 placeTiles () Bax, MHI TREATS AARNE. Alt, S11] r58— T 95RBJRIIRJESSAteval () ， 这 个 函数 将 
使 我 们 能 够 准确 测量 在 执行 给 定 的 R 函 数 时 ， 处 理 器 完成 了 多 少 工作 。 观 察 以 下 代码 : 


teval <- function(...) { 
gc(); # Perform a garbage collection before timing R function 
start <- proc.time() 
result <- eval(...) 
finish <- proc.time() 
return ( list (Duration=finish-start, Result=result) ) 


teval () 函数 使 用 一 个 内 部 系统 函数 pro.time () 来 记录 当前 的 活动 用 尸 和 系统 周期 以 及 R 进 程 的 时 钟 时 间 (不 笠 的 是 ， 当 在 Windows 系 统 上 运行 R 时 ， 该 信息 是 不 
可 用 的 ) 。 它 捕获 测量 的 R 表 达 式 运行 前 后 的 这 个 状态 并 计算 总 体 持续 时 间 。 为 了 有 助 于 确保 时 间 的 一 致 性 水 平 ， 调 用 一 个 抢占 式 的 碎片 收集 ， 但 应 该 注意 的 是 ， 这 并 不 
会 在 时 间 周 期 内 的 任何 一 点 排除 R 执 行 碎片 收集 。 


因此 ， 让 我 们 在 现 有 的 placeTlles () 上 运行 teval () ， 如 下 所 示 : 


> teval(placeTiles(cells,board,tiles)) 
$Duration 

user system elapsed 

0.421 0.005 0.519 
SResult 


现在 ， 让 我 们 在 placeTiles () 中 做 一 些 改变 以 便 调 用 evaluateCell () ， 然 后 通过 以 下 代码 再 次 运行 它 : 


> teval(placeTiles(cells,board,tiles)) 
$Duration 

user system elapsed 

0.002 0.000 0.002 
SResult 


这 是 一 个 非常 棒 的 结果 ! 这 一 改良 使 运行 时 间 降 低 了 200 倍 。 显 然 ， 你 自己 的 绝对 时 间 可 能 会 根据 使 用 的 机 器 而 有 所 不 同 。 
N 基准 测 试 代码 


对 于 真正 的 比较 基准 测试 ， 我 们 应 该 多 次 运行 测试 并 从 一 个 完整 系统 启动 运行 ， 确 保 没 有 缓存 的 影响 或 者 可 能 影响 我 们 结果 的 系统 资源 占用 问题 。 对 于 特定 的 简单 示 
例 代 码 ， 它 并 不 执行 文件 I/ 〇 或 网 络 通信 ， 处 理 用 户 输入 或 使 用 大 量 内 存 ， 我 们 应 该 不 会 遇 到 这 些 问题 。 这 类 问题 通常 由 多 个 运行 时 间 内 的 显著 变化 表明 ， 高 百分比 的 系 
统 时 间或 实际 运算 (elapsed) 时 间 实 质 上 大 于 用 户 十 系统 时 间 。 


这 种 性 能 分 析 和 改进 与 本 章 后 面 的 内 容 同样 重要 ,我 们 将 直接 支付 云 上 的 CPU 循 环 。 因 此 ， 我 们 想 要 代码 尽 可 能 地 高 效 。 
代码 植 入 


为 了 对 我 们 代码 的 行为 有 一 些 更 深入 的 了 解 ， 例 如 程序 执行 期 间 函 数 被 调用 了 多 少 次 ， 我 们 或 者 需要 添加 显 了 式 仪 表 ， 如 计数 器 和 打印 语句 ， 或 者 使 用 外 部 工具 ， 如 
Rprof。 现 在 ， 我 们 要 看 看 如 何 应 用 基本 的 R 印 数 trace () 提供 一 个 通用 机 制 来 摘 述 函数 被 调用 的 次 数 ， 如 下 所 示 : 


profileFn <- function(fn) ## Turn on tracing for "fn" 


{ 


assign ("profile.counter",0,envir=globalenv () ) 
trace (fn, quote (assign("profile.counter", 


get ("profile.counter",envir=globalenv()) + 1, 
envir=globalenv())), print=FALSE) 


j 


profileFnStats <- function(fn) ## Get collected stats 


{ 


count <- get ("profile.counter",envir=globalenv () ) 


return( list (Function=fn,Count=count) ) 


j 


unprofileFn «- function(fn) 4H Turn off tracing and tidy up 


{ 


remove (list="profile.counter", envir=globalenv () ) 


untrace (fn) 


trace () 函数 使 我 们 能 够 每 次 调用 被 退 踪 的 函数 时 执行 一 段 代码 。 我 们 将 利用 这 个 函数 来 更 新 在 全 局 环境 中 创建 的 一 个 特定 的 计数 器 (profile.counter) 用 来 跟踪 每 
次 调用 。 


iet 4 


race () 


只 有 当 跟 踪 显 式 编译 为 R 本 身 时 这 个 函数 才 是 有 效 的 。 如 果 你 正在 使 用 Mac OS 或 Microsoft Windows 的 R 的 CRAN 分 布 ， 那 么 这 个 设备 就 会 被 打开 。 跟 踪 引 入 一 点 ， 即 使 


并 未 在 代码 中 直接 使 用 ， 因 此 它 往往 不 编译 为 R 生 成 环境 。 


我 们 可 以 展示 profileFn () 在 我 们 的 运行 示例 中 的 工作 ， 如 下 所 示 : 


这 


空间 。 


> profile.counter 

Error: object 'profile.counter' not found 
> profileFn("evaluateCell") 

[1] "evaluateCell" 

» profile.counter 

[1] 0 

» placeTiles(cells,board,tiles) 
» profileFnStats("evaluateCell") 
$Function 

[1] "evaluateCell" 

$Count 

IH 59 

» unprofileFn("evaluateCell") 

» profile.counter 


Error: object 'profile.counter' not found 


个 结果 表明 ，evaluateCell O 被 调用 的 次 数 是 之 前 的 evaluateBoard () 被 调用 次 数 的 59 倍 ， 它 被 调用 了 5096 次 。 


1.1.3. ”将 问题 分 解 为 多 个 任务 


这 显著 降低 了 运行 时 间 和 必须 友 现 的 组 合 搜索 


并 行 性 依赖 于 将 问题 分 解 为 多 个 独立 的 工作 单元 。 琐 碎 的 (或 有 时 它 称 为 朴素 并 行 性 ) 将 每 一 个 单独 的 工作 单元 视 为 完全 相互 独立 的 。 在 这 个 方案 中 ， 当 正在 处 理 一 
个 工作 单元 或 任务 时 ， 没 有 与 其 他 计算 任务 相互 作用 或 共享 信息 的 计算 需求 ， 不 论 现在 、 之 前 或 以 后 。 


对 于 我 们 的 数 谜 ， 常 见 的 方法 是 将 问题 分 为 19 个 独立 的 任务 ， 其 中 每 个 任务 是 放置 不 同 编号 的 小 注 板 在 板 上 的 单元 1 位 置 上 ， 任 务 是 探索 搜索 空间 ， 寻 找 一 个 源 于 单 
一 小 注 板 起 始 位 置 的 解 。 然 而 ， 这 只 给 了 我 们 一 个 19 的 最 大 并 行 度 ， 意 味 着 我 们 探索 空间 的 速度 最 大 可 以 达到 串 行 的 19 倍 。 我 们 还 需要 考虑 整体 效率 。 每 个 起 始 位 置 都 市 
来 相同 的 计算 量 吗 ? 总 之 ,不 是 。 因 为 我 们 使 用 深度 优先 算法 ， 当 它 找到 一 个 正确 的 解 时 会 立即 结束 任务 ， 相 反 ， 一 个 不 正确 的 起 始 位 置 可 能 会 导致 更 大 的 、 变 化 的 、 不 
可 避免 的 宫 无 结果 的 搜索 空间 。 因 此 我 们 的 任务 不 是 均衡 的 ， 将 需要 完成 不 同 计算 量 的 计算 工作 。 我 们 也 无 法 预测 哪 项 任务 会 消耗 更 长 时 间 来 计算 ， 因 为 我 们 不 知道 哪个 
起 始 位 置 会 导致 正确 的 先 验 解 。 


站 均衡 的 计算 


这 种 情况 多 见于 典型 的 大 量 实际 问题 ， 即 我 们 在 复杂 的 搜索 空间 中 寻找 一 个 最 优 或 接近 最 优 的 解 ， 例 如 ， 寻 找 最 有 效 的 路 线 和 方法 来 环 游 一 组 目的 地 或 规划 最 有 效率 
利用 人 力 和 物力 来 安排 一 系列 活动 。 非 均衡 计算 是 一 个 重要 的 问题 ， 其 中 在 所 有 计算 完成 前 ， 我 们 完全 承诺 计算 资源 并 有 效 地 等 待 执行 最 慢 的 任务 。 与 串 行 中 的 运行 相 
比 ， 这 会 降低 我 们 的 并 行 加 速 比 (speedup) ， 它 也 可 能 意味 着 计算 资源 在 大 量 时 间 内 是 空闲 的 而 不 是 在 做 有 用 的 工作 。 


为 了 提高 我 们 的 轧 体 效率 和 并 行 性 的 机 会 ， 我 们 将 问题 划分 为 许多 较 小 的 计算 任务 ， 我 们 将 利用 一 个 特定 功能 的 迹 题 来 显著 减少 总 体 搜索 空间 。 


我 们 将 产生 板 的 第 一 行 ( 顶 部 ) 的 前 3 个 小 溥 板 ， 单 元 为 1 到 3。 我 们 预计 这 会 给 我 们 市 来 19x18x17 = 5814 种 小 薄板 组 合 。 然 而 ， 这 些 组 合 中 只 有 一 部 分 的 和 为 38。1 
+2+3 与 17+18+19 显 然 是 无 效 的 。 我 们 也 可 以 消除 镜像 组 合 。 例 如 ， 板 的 第 一 行 1+ 18 + 19 将 产生 一 个 等 价 的 搜索 空间 19 + 18+ 1， 因 此 我 们 只 需要 考虑 其 中 之 一 。 


iugBZXgenerateTriples () 的 代码 。 你 会 注意 到 我 们 使 用 6 个 字符 的 字符 串 表 示 3 个 小 薄板 来 简化 镜像 测试 ， 这 也 恰好 可 以 合理 、 简 洁 、 高 效 地 实现 : 


generateTriples <- function() 
{ 
triples <- list () 
for (x in 1:19) { 
for (y im 1:19) 4 


LE [ == X) Hex 
(z in 1:19) | 
if (z == * || z == y || x«y*z T= 38) Text 
mirror «- FALSE 
reversed <- sprintf("£$02d$02d$02d",z,y,x) 
for (t in triples) { 
if (reversed == t) { 


mirror <- TRUE 
break 


if (!mirror) { 
triples [length(triples)+1] <- 
sprintf ("S02d%02d%02d",x,y,Z) 


| 


return (triples) 


如 果 运 行 这 段 代 码 ， 它 将 产生 90 个 不 同 的 三 元 组 ， 显 著 节 省 了 超过 5814 个 起 始 位 置 : 


> teval(generateTriples()) 
$Duration 
user system elapsed 
0.025 0.001 0.105 
$Result[I[11] 
fi] "ÜIIBID^ 


SResult[[90]] 
[1] "180119" 


使 用 lapply () 执行 多 个 任务 


既然 我 们 有 一 个 有 效 定义 的 板 的 起 始 位 置 ， 那 么 可 以 看 看 如 何 管理 分 布 式 计算 任务 的 设置 。 我 们 从 lapply () 开始 ， 这 使 我 们 可 以 测试 任务 执行 并 制订 程序 结构 ， 为 
此 我 们 可 以 做 一 个 简单 的 替换 来 并 行 运行 。 


lapply () 函数 有 两 个 参数 。 第 一 个 是 对 象 的 列表 ， 它 作为 用 户 定 义 冰 数 的 输入 ;第 二 个 是 可 调用 的 用 尸 定义 函数 ， 每 次 对 于 每 个 单独 的 输入 对 象 ， 它 会 返回 每 个 半 
数 调用 的 结果 集合 (作为 一 个 单独 的 列表 ) 。 我 们 将 重新 打包 求解 程序 ， 使 它 更 容易 与 lapply() 一 起 使 用 ， 求 解 程序 包含 运 今 为 止 在 整体 solver () 函数 中 我 们 开 上 友 的 
多 种 函数 和 数据 结构 ， 如 下 所 示 (求解 程序 的 完整 代码 可 以 在 本 书 的 网 站 上 获取 ) : 


solver <- function(triple) 

{ 
all lines <- list(.. 
cell lines <- list(.. 
sequence <- function(.. 
evaluateBoard <- function(.. 
evaluateCell <- function(.. 
placeTiles <- function(.. 
teval <- function(.. 


## The main body of the solver 
tilel <- as.integer(substr(triple,1,2)) 
(substr (triple, 3,4) ) 
tile3 <- as.integer(substr(triple,5,6)) 
board <- c(tilel,tile2,tile3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0) 
cells <= 5(4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19) 
tiles <- sequence () 
for (t in 1:19) ( 
if (t == tilel || t == tile2 || t == tile3) next 
tiles$pushHead (t) 
} 
result <- teval (placeTiles (cells,board,tiles)) 
return( list(Triple = triple, Result = result$Result, 
Duration= result$Duration) ) 


tile2 <- as.integer 


让 我 们 选择 4 个 三 元 组 小 薄板 来 运行 求解 程序 : 


> tri <- generateTriples() 
> tasks <- list (triClil 1, tri CLi2ij), tril (4i]],trit (6111) 
> teval(lapply(tasks,solver)) 
$Duration ## Overall 
user system elapsed 
171.934 0.216 272.257 
$Result[[1]]$Duration 44 Triple "011819" 
user system elapsed 
1.123 0.001 1.114 
$Result[[21]$Duration ## Triple "061517" 
user system elapsed 
39.536 0.054 39.615 


$Result [[3]] $Duration ## Triple "091019" 
user system elapsed 
65.541 0.089 65.689 

$Result[[4]]$Duration ## Triple "111215" 
user system elapsed 
65.609 0.072 65.704 


为 了 简洁 和 清晰 ， 前 面 的 输出 已 经 进行 了 修整 和 批注 。 要 注意 的 关键 问题 是 ， 对 于 4 个 起 始 三 元 组 的 每 一 个 搜索 空间 ， 在 笔记 本 电脑 上 的 运行 时 间 (elapsed 时 间 ) 却 
有 很 大 不 同 ， 没 有 一 个 可 以 得 到 数 迹 的 解 。 我 们 可 以 (也许 ) 了 解 ， 如 果 串 行 运行 完整 的 三 元 组 系列 ， 至 少 需要 90 分 钟 。 不 过 ， 如 果 并 行 运行 我 们 的 代码 ， 可 以 更 快 地 解 
决 这 个 迹 题 。 那 么 ， 事 不 宜 迟 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/17225/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/17225/OEBPS/Text/..http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach_ebook/uncompressed/17225/OEBPS/Text/.. 


1.2 ”R 的 并 行 包 


R 的 并 行 (parallel) 包 如 今 是 R 的 核心 分 布 的 一 部 分 。 它 包括 许多 不 同 的 机 制 ， 使 你 可 以 利用 多 核 处 理 器 开发 并 行 性 ， 并 对 分 布 在 网 络 〈 像 机 器 集群 ) 上 的 资源 进行 
运算 。 然 而 ， 因 为 本 章 的 主题 融 是 简易 ， 所 以 我 们 将 坚持 使 你 运行 R 的 机 器 上 的 大 部 分 资源 可 用 。 

你 需要 做 的 第 一 件 事 是 局 用 并 行 包 。 你 可 以 只 是 用 R 的 library () 函数 来 加 载 它 ， 或 者 如 果 你 使 用 Rstudio， 你 可 以 在 Packages 选 项 上 的 User Library 列 表 中 选择 相应 
的 条 目 。 你 需要 做 的 第 二 件 事 是 通过 调用 并 行 包 函数 detectCores () 来 确定 可 以 利用 多 少 并 行 资源 ， 如 下 所 示 : 


> library ("parallel") 
> detectCores() 


[1] 4 


因为 我 们 能 立即 注意 到 ， 在 我 的 苹果 笔记 本 电脑 上 ， 有 4 个 核心 可 以 并 行 执行 R 程 序 。 使 用 Mac 的 Activity Monitor (活动 监视 器 ) 应 用 程序 并 从 Window (窗口 ) X 
单 中 选择 CPU History (中 央 处 理 器 历史 ) 选项 可 以 容易 验证 已 。 你 应 该 可 以 看 到 类 似 图 1-2 的 图 形 ， 每 一 个 核心 都 有 一 个 时 间 轴 图 。 


绘制 的 条 形 图 中 的 日 色 元 素 表 示 在 用 户 的 代码 中 CPU 使 用 的 比例 ， 深 灰色 元 素 代表 在 系统 代码 中 花费 时 间 所 占 的 比例 。 你 可 以 将 图 形 更 新 的 频率 更 改 为 每 秒 一 次 。 类 
似 的 多 核 处 理 器 历史 也 可 以 在 微软 Windows 中 使 用 。 当 运行 并 行 代码 时 ， 打 开 这 种 类 型 的 视图 是 十 分 有 价值 的 ， 代 码 使 用 多 核心 时 你 可 以 直接 观察 到 。 你 也 可 以 看 到 在 机 
器 上 进行 的 其 他 可 能 影响 R 代 码 并 行 运 行 的 活动 。 


OO CPU History 


在 R 中 实现 并 行 性 最 简单 的 机 制 是 使 用 lapply () 的 多 核 并 行 变 体 ， 称 为 (逻辑 上 ) mclapply () . 

当 你 只 有 在 Mac OS X 或 Linux 或 其 他 UNIX 的 变 体 上 运行 R 时 才能 使 用 mclapply () 函数 。 它 是 用 UNIX fork () 系统 调用 实现 的 ， 因 此 不 能 在 Windows 系 统 上 使 用 。 请 放 
心 ， 我 们 将 给 出 与 Windows 系 统 兼容 的 解决 方案 。UNIX fork () 系统 调用 通过 复制 当前 运行 的 进程 (包括 其 全 部 内 存 状 态 、 打 开 的 文件 描述 符 和 其 他 进程 资源 ， 更 重要 的 
是 ， 从 R 的 角度 来 看 ， 任 何 当 前 加 载 的 库 ) 作为 一 系列 独立 的 子 进程 ， 这 些 子 进 程 将 继续 独立 运行 直到 它们 执行 exit O 系统 调用 ， 这 时 主 进程 将 收集 它们 的 结束 状态 。 一 
ALBAS HEAL AR ZE RR, fork () 将 完成 。 所 有 这 些 行 为 都 打包 在 mclapply〈) 的 调用 中 。 在 Mac OS 义 中 ， 如 果 你 在 Activity Monitor (活动 监视 器 ) 中 查看 正在 运行 的 进 


程 ， 你 会 发 现 当 调用 mclapply () 时 具有 高 CPU 利用 率 派 生 tsession 进 程 的 mc.cote 的 数量 ， 如 图 1-3 所 示 。 


Activity Monitor (All Processes) 


Memory | Energy | Disk | Network | 


rsession 956  26:37.97 0 38883 simon 
rsession 95.6 26:38.67 38881 simon 
rsession 95.5  26:38.02 38884 simon 
rsession 04.2 26:38.29 38882 simon 
EM Activity Monitor 4.1 46:30.57 7694 simon 


图 1-3 


Slapply () RU, -PERE BI CESS RABI, BOSSES MISHMTA KN. —Pa AHA emc.corestiF TEER HAS IAD, 
也 融 是 ， 我 们 想 使 用 的 并 行 度 。 如 果 你 运行 detectCores () ， 并 且 结 果 是 1， 那 么 mclapply () 将 只 是 内 部 调用 lapply () ， 也 融 是 ， 计 算 将 串 行 执行 。 


让 我 们 通过 一 个 三 元 组 小 注 板 的 子 集 作为 起 始 位 置 开始 运行 mclapply () ， 为 了 比较 ， 与 之 前 调用 lapply () 尔 数 时 使 用 相同 的 设置 ， 如 下 所 示 : 


> tri <- generateTriples () 
> tasks <+ list(tri[[1]],tri[[21]],tri[[41]],tri[[6é1]]) 
> teval (mclapply (tasks,solver,mc.cores=detectCores () ) ) 
SDuration ## Overall 

user system elapsed 
146.412 0.433 87.621 
SResult[[1]]S$Duration ## Triple "011819" 

user system elapsed 

2.182 0.010 2.274 


$Result[[2]]$Duration ## Triple "061517" 
user system elapsed 

58.686 0.108 59.391 

$Result[[3]]$Duration ## Triple "091019" 


user system elapsed 
85:353 0.147 86.198 
$Result[[4]]$Duration ## Triple "111215" 
user system elapsed 


86.604 0.152 87.498 


为 了 简洁 和 清晰 ， 前 面 的 输出 也 是 经 过 修整 和 批注 的 。 你 可 以 立即 注意 到 ， 执 行 所 有 任务 的 总 运行 时 间 并 未 超过 计算 4 个 任务 的 最 长 运行 时 间 。 通 过 同时 利用 所 有 可 
用 的 4 个 核心 ， 我 们 已 经 设法 显著 减少 运行 时 间 ， 使 运行 时 间 从 串 行 运行 的 178 秒 降低 到 只 有 87 秒 。 但 是 ，87 秒 只 是 178 秒 的 一 半 ， 你 可 能 认为 我 们 会 看 到 运行 加 速 比 串 行 
高 4 倍 以 上 。 你 可 能 也 注意 到 了 ， 相 比 串 行 运行 ， 我 们 的 单个 任务 的 运行 时 间 增 加 了 一 例如 ， 三 元 组 111215 从 65 秒 增加 到 87 秒 。 变 化 的 部 分 原因 是 ， 分 又 (forking) 机 
制 的 开销 以 及 局 动 一 个 新 的 子 进程 、 分 配 任务 、 收 集结 果 并 结束 任务 所 用 的 时 间 。 好 消息 是 这 种 开销 可 以 通过 在 每 个 并 行进 程 中 计算 大 量 的 任务 来 进行 分 挫 。 


另 一 个 需要 考虑 的 是 ,我 的 Macbook 笔 记 本 电脑 使 用 英特尔 酷 窒 i5 处 理 器 ， 在 实践 中 ， 相 当 于 两 个 1.5 核 心 ， 它 利用 两 个 处 理 器 核心 的 超 线程 提高 了 性 能 ， 虽 然 有 一 
定局 限 性 ， 但 它 仍 然 被 操作 系统 视 为 4 个 独立 工作 的 核心 。 如 果 在 我 的 笔记 本 电脑 的 两 个 核心 上 运行 前 面 的 示例 代码 ， 总 体 运行 时 间 为 107 秒 。 两 次 超 线程 ， 因 此 ， 性 能 额 
外 提升 20%， 这 里 然 好 ， 但 仍 远 低 于 预期 的 ?0% 的 性 能 提升 。 


我 相信 此 时 ， 如 果 你 还 没有 这 样 做 ， 你 会 马上 在 所 有 90 个 起 始 三 元 组 小 薄板 中 并 行 运 行 求解 程序 ， 然 后 得 到 亚 里 十 多 德 数 迷 的 解 ， 尽 管 你 可 能 想 在 程序 运行 时 喝 咖 啡 
休息 一 下 或 者 去 吧 午 饭 …… 


mclapply () 的 参数 

函数 mclapply () 的 性 能 是 我 们 迄今 为 止 遇 到 过 最 好 的 。 下 表 总 结 了 这 些 扩展 功能 并 简要 介绍 了 它们 最 适当 的 应 用 。 

mclapply(X, FUN, ..., mc.preschedule=TRUE, mc.set.seed=TRUE, 
mc.silent-FALSE, mc.cores=getOption("mc.cores",2L), 


mc.cleanup=TRUE, mc.allow.recursive=TRUE) 
returns: list of FUN results, where length(returns) =length (X) 


参数 [B =E ] 


x 


mc.preschedule 


[ Kil = TRUE] 


mc.set,.seed 


[ 默认 三 TURE] 


mc.silent 


[ S i — FALSE] 


mc.cores 
[ Ski —2 或 如 果 
EA getOption 
("mc.cores")] 


mc.cleanup 


[ E iA = TURE] 


mc.allow. 
recursive 


[ Sii, = TURE] 


让 我 们 看 看 这 个 提示 。 


i: x 
iX Rt HH Pig Xin] FUN 函数 来 表示 计算 任务 条 目的 列表 (或 向 量 ) 


这 是 执行 每 个 尾 届 的 用 户 定 头 函 数 。FUN 会 被 可 次 调用 ; FUN(x,...). MPx 
是 艾 中 需要 计算 的 其 傈 任务 条 目 之 一 ,并且 . .. 与 传人 mclapply1{) 的 额外 参数 相 
pE 

每 次 任务 执行 ， 每 个 额外 的 非 mclapply() 和 参数 都 直接 传 给 FUN 

如 果 是 TURE, Pac PREM eb. A PER. TERI] “PREP” aS 
任务 进行 尽 可 能 均匀 的 分 割 ， 并 且 每 个 于 进程 执行 分 配 它 的 任务 。 对 于 太 部 分 的 并 征 
[ 作 人 负载， 这 通常 是 最 好 的 选 拌 

如 果 是 FALSE, 部 么 对 每 个 执行 的 任务 ， 重 新 分 及 一 个 新 的 子 进程 。 这 个 基数 基 十 
分 有 用 的 ,其 中 任务 涡 要 相对 长 的 计算 时 间 ， 但 在 计算 时 间 上 会 出 现 明 显 的 变化 ， 因 
为 它 葛 许 合 用 一 定 程 度 的 自 适应 负载 来 平 奖 每 个 任务 分 义 逐 渐 增 加 的 开销 ， 而 不 基 每 
^ Beaty op 

EPR. Sia mcapply() 时 在 任何 给 定时 间 上 运行 的 mc.cores 了 于 进程 
数 都 有 一 个 最 太 值 

a PSR NEA SW Ree Pe Ree E (RNG) 的 类 型 控制 的 

如 果 它 是 TURE 并 选择 合适 RNG, PAR THRE SRB See ee 
启动 ， 这 样 以 后 调用 相同 参数 的 mclLapply1l 函数 将 得 到 相同 的 结果 (假定 计算 使 用 
的 是 特定 的 RNG)。 天 则 ， 就 是 参数 为 FALSE 的 情况 

ME FALSE, PAR THEREL A RATHER LER R SRL es. 
它 可 能 祖 难 产生 可 复制 的 结果 

在 线 的 章节 中 ,有 关于 并 行 代码 的 一 致 随机 数 生成 

WEEE TURE. 那 之 任何 到 标准 输出 流 的 输出 将 被 图 断 (如 print 请 句 输出 ) 

如 果 它 是 FALSE, BARR PSE. Pit, 20353 gd S] 

在 这 两 种 情况 下 ， 到 标 淮 异 误 流 的 输出 和 不 受 影 响 

这 个 天 数 设置 使 用 并 行 度 ， 可 以 说 它 是 名 和 不 副 实 的 ， 它 实际 上 控制 奢 执 行 尾 务 同 时 
运行 的 进程 数 ， 它 可 以 超过 物理 处 理 煤 核心 玫 。 对 于 某 些 灶 型 的 并 行 工作 负载 ， 例 如 
一 小 部 分 长 时 间 运 行 但 可 变 的 计算 任务 ,其 可 以 生成 中 间 结 果 {人 例如， 文件 系统 或 消息 
fet). 这 巷 至 是 有 帮助 的 ， 它 元 许 进程 的 操作 系统 时 间 片 分 割 ， 以 确保 一 系列 任 备 平 


这 个 奴 东 的 上 限 取 决 于 操作 系统 和 机 器 资源 ， 但 总 的 来 说 ， 相 对 于 1000 秒 ， 它 是 
100 种 

如 果 它 是 TURE, 那么 子 进程 将 由 父 进程 强行 终止 

如 果 它 是 FALSE, BATURA GES mclapply() 完成 后 仍然 继续 运行 。 后 者 对 
于 连接 到 正在 运行 的 进程 的 后 计算 调试 可 能 是 有 用 的 

在 这 两 种 情况 下 ，mclapply () 等 待 直 到 所 有 的 子 进程 结束 并 返回 计算 结果 的 组 合 


ied TURE, WA FUN 可 以 自己 调用 mclapply1l) 或 者 运行 可 以 调用 mcla- 
pply() 的 代码 。 总 之 ， 这 种 递归 见 通 用 于 外 部 形式 的 并 行 沪 程 

WREE FALSE. 那么 试图 调用 mclapply1l 的 递归 将 只 在 内 部 调用 lapply1() 并 
ETHE PM ie iT 


六 并 行 中 的 print O 函数 


在 Rstudio 中 ， 并 行 运行 mclapply O 时 ， 输 出 并 不 直接 显示 在 屏幕 上 。 如 果 你 希望 生成 输出 消息 或 其 他 控制 台 输 出 ， 你 应 该 直接 用 命令 shell 而 不 是 用 Rstudio 运 行程 序 。 
一 般 而 言 ， 由 于 它 会 引起 一 系列 并 发 症 ， 多 个 进程 试图 与 图 形 用 户 界 面 (GUI) 进行 交互 ， 所 以 mclapply () 的 作者 并 不 推荐 从 图 形 用 户 界 面 的 控制 台 运 行 并 行 R 代 码 。 例 


如 ， 并 行 运行 时 ， 它 并 不 适合 绘制 图 形 用 户 界面 的 图 形 。 然 而 ， 对 于 我 们 的 求解 程序 ， 你 不 会 遇 到 任何 特定 的 问题 。 值 得 注意 的 是 ， 由 于 消息 可 能 会 交错 并 且 难 以 识别 ， 


所 以 多 个 进程 对 同一 个 输出 流 写 入 消息 会 变 得 混乱 ， 这 取决 于 输出 流 如 何 缓 冲 I/O。 下 一 章 我 们 将 回 到 并 行 I/O 的 主题 。 


1.2.2 ”使 用 parLapply () 


mclapply () 函数 与 更 通用 的 parallel (并 行 ) 软件 包 parLapply () 函数 密切 相关 。 天 键 的 区 别 是 ， 我 们 分 别 使 用 makeCluster () 、parLapply () 创建 并 行 R 进 程 
的 集群 ， 然 后 在 并 行 运行 函数 时 利用 这 个 集群 。 这 种 方法 有 两 个 重要 的 优点 。 第 一 ， 用 makeCluster () ， 我 们 可 以 创建 并 行进 程 池 的 不 同 基础 实现 ， 包 括 类 似 于 
mclapply () 内 部 使 用 的 分 又 进程 集群 (FORK) 、 可 以 在 微软 Windows、OS X 与 Linux 上 运行 的 基于 套 接 字 的 集群 (PSOCK) 和 最 适合 我 们 环境 的 基于 消息 传递 
(MPI) 的 集群 。 第 二 ,创建 和 配置 集群 的 系统 开销 (在 后 面 的 章节 中 ， 我 们 将 访问 集群 的 R 配 置 表 ) 是 平 挫 的 ， 因 为 它 可 以 在 会 话 中 不 断 重复 使 用 。 


PSOCK 和 MPI 类 型 的 集群 也 能 够 使 R 利 用 网 络 中 的 多 人 台 机 器 并 进行 真正 的 分 布 式 计算 (机 器 可 能 运行 不 同 的 操作 系统 ) 。 但 是 ， 现 在 ,我 们 将 重点 放 在 PSOCK 集 群 类 
型 和 如 何在 一 台 计 算 机 环境 下 使 用 它 。 我 们 将 在 第 2 草 、 第 3 草 、 第 4 章 中 详细 介绍 MPI。 


让 我 们 直接 进入 主题 ， 运 行 以 下 代码 : 
> cluster <- makeCluster (detectCores()," PSOCK") 


> tri <- generateTriples() 
> tasks <- list(tri[[1]],tri[(21]],tri[[41]],tri[[61]]) 
> teval(parLapply (cluster, tasks, solver) ) 
$Duration ## Overall 
user system elapsed 
0.119 0.148 83.820 
$Result[[1]]S$Duration ## Triple "011819" 
user system elapsed 
2.055 0.008 2.118 
SResult[[2]]$Duration ## Triple "061517" 
user system elapsed 
55.603 0.156 56.749 
SResult[[3]]$Duration ## Triple "091019" 
user system elapsed 
81.949 0.208 83.195 
$Result[[4]] $Duration ## Triple "111215" 
user system elapsed 


82.591 0.196 83.788 


> stopCluster(cluster) ## Shutdown the cluster (reap processes) 


你 可 能 立即 从 之 前 产生 的 时 间 结 果 中 注意 到 ， 将 总 体 用 尸 时 间 记 录 为 可 忽略 的 。 这 是 因为 在 局 动 过 程 中 ， 主 要 的 R 会 话 (简称 主 会 话 ) 并 不 执行 任何 计算 ， 所 有 的 计 
算 都 是 由 集群 进行 计算 的 。 主 会 话 仅仅 需要 发 送 任务 到 集群 ， 然 后 等 待 返回 的 结果 。 


当 在 这 种 模式 下 运行 集群 时 ， 在 集群 中 进程 ( 称 为 工作 者 ) 之 间 的 计算 不 平衡 也 是 十 分 明显 的 。 图 1-4 显 示 得 十 分 清楚 ， 集 群 中 的 每 个 R 工 作者 进程 在 可 变化 的 时 间 内 
计算 单个 任务 ， 当 PID 41551 进 程 在 超过 1 分 20 秒 的 时 间 内 忙于 计算 它 的 任务 时 ，PID 41527 进 程 在 2 秒 后 闲置 。 


Activity Monitor (My Processes) 


Process Name . CPU Time | 
2.25 0 41527 

1:22.98 0 41551 simon 

1:22.33 | 0 41543 simon 

55.94 0 41535 simon 


图 1-4 
在 集群 需要 执行 的 任务 数量 逐渐 增加 时 ， 假 定 随机 分 配给 工作 者 的 任务 应 该 提高 效率 ， 我 们 仍然 可 以 以 一 个 小 于 最 优 总 体 资源 利用 率 作为 结束 。 我 们 需要 的 是 更 高 的 
自 适应 性 ， 只 要 工作 者 进程 空 赃 ， 融 给 其 动态 分 上 友 任 务 。 科 和 运 的 是 ，parLapply () 的 一 个 变 体 可 以 完成 这 个 .…… 

全 -其他 的 pa rApply 函 数 
有 一 系列 的 集群 函数 以 适应 不 同类 型 的 工作 负载 ， 例 如 并 行 处 理 R 佐 阵 。 这 里 对 它们 进行 简要 的 总 结 : 

parSapply () : 这 是 sapply () 的 并 行 变 体 ， 它 将 返回 类 型 (如 果 可 能 ) MAME. HERA, 

. parCapply () 、patRapply O : 这 些 分 别 是 应 用 于 矩阵 的 行 和 列 的 并 行 操作 。 

- patLapplyLB () ~ parSapplyLB () : 这 些 是 与 它们 相似 命名 函数 的 负载 均衡 版 本 。 负 载 均 衡 将 在 下 一 节 介 绍 。 

-clusterApply () >~ clusterApplyLB () : 这 些 是 由 所 有 parApply 函 数 使 用 的 通用 应 用 和 负载 均衡 应 用 。 这 些 将 在 下 一 节 介 绍 。 

: clusterMap () : 这 是 mapply () Amap () 的 并 行 变 体 ， 使 得 对 于 每 个 任务 ， 调 用 的 函数 都 有 各 自 的 参数 值 ， 有 可 选 的 返回 简化 类 型 (如 sapply () ) à 
通过 在 R 中 键入 help (clusterApply) ， 可 以 得 到 更 多 的 帮助 信息 。 


我 们 在 本 章 将 继续 关注 处 理 任 务 的 列表 。 


1.43 “并行 负载 均衡 


parLapplyLB () 函数 是 parLapply () 的 负载 均衡 版 本 。 这 两 个 函数 本 质 上 都 是 在 内 部 分 别 直接 调用 parallel (并 行 ) tu&SgXclusterApplyLB () 和 
clusterApply () 的 轻 量 级 封装 器 。 但 是 ， 重 要 的 是 了 解 在 调用 相关 的 cluster-Apply 函 数 前 ，parLapply 函 数 将 一 系列 任务 分 割 成 与 工作 者 的 数量 相 匹 配 的 许多 大 小 相等 
的 子 任务 。 


如 果 你 直接 调用 clusterApply () ， 它 只 会 处 理 在 集群 大 小 的 块 中 出 现 的 任务 列表 ， 即 集群 中 的 工作 者 数量 。 它 是 按 顺 序 完成 的 ， 假 设 有 4 个 工作 者 ， 那 么 任务 1 到 工 
作者 1， 任 务 2 到 工作 者 2， 任 务 3 到 工作 者 3， 任 务 4 到 工作 者 4， 任 务 5 将 到 工作 者 1， 任 务 6 到 工作 者 2， 等 等 。 然 而 ， 值 得 注意 的 是 ，clusterApply 也 等 待 这 个 块 中 的 所 有 
任务 的 每 个 任务 块 都 完成 后 才 移动 到 下 一 个 块 。 


我 们 可 以 友 现 在 下 面 的 代码 片段 中 ， 有 重要 的 性 能 影响 。 在 这 个 例子 中 ， 我 们 将 使 用 90 个 小 注 板 三 元 组 的 一 个 特定 的 子 集 (16) 来 演示 这 一 所: 


> cluster <- makeCluster (4,"PSOCK") 
» tri «- generateTriples() 
> triples <- list (tril [LL] ,tri[[20] ] ,tri[(70)])],tril (85) ]; 
trit Edd EEE ] txt [£711] eri [E85] 1, 
tri[I3]];tzilI221]1];trz1l[II[I72]];txi[I87]] ; 
tri [ [4] ] ,EziIl[23]1,tz£1[[731] , tei [[88]1) 
> teval(clusterApply (cluster,triples,solver) ) 
$Duration 
user system elapsed 
0.613 0.778 449.873 


> stopCluster (cluster) 
Process Name % CPU CPU Time | Thr... & Idle Wake Ups PID User 
6:34.15 0 42720 simon 


0 42704 simon 
0 42728 simon 


8.36 
7:26.65 


1 

3:34.99 1 0 42712 simon 
1 
1 


前 面 的 结果 说 明 ， 由 于 每 个 任务 的 计算 时 间 不 同 ， 所 以 在 给 它们 分 配 下 一 个 计算 任务 前 ， 工 作者 会 等 待 块 中 最 长 的 工作 完成 。 如 果 你 观察 执行 过 程 中 的 进程 利用 率 ， 
你 将 视 此 行为 为 最 轻 加 载 进程 ， 尤 其 是 ， 在 每 四 块 的 开始 突然 活跃 。 这 种 情况 的 效率 很 低 ， 会 导致 显著 延长 的 运行 时 间 ， 最 坏 的 情况 下 ， 与 串 行 运行 相 比 ， 并 行 没有 自己 
的 优势 。 值 得 注意 的 是 ，parLapply () 避免 了 这 种 情况 的 友 生 ， 因 为 它 移 将 需要 完成 的 任务 精确 分 割 为 集群 大 小 lapply () 元 任务 ， 并 且 clusterApply () 只 在 一 个 任务 
块 上 执行 。 但 是 一 个 不 好 工作 的 最 初 分 割 会 影响 parLapply 遂 数 的 整体 表现 。 


HELZ TF, clusterApplyLB () 一 次 为 一 个 工作 者 分 配 任务 ， 每 当 一 个 让 工作 者 完成 了 它 的 任务 时 ， 它 立即 将 下 一 个 工作 分 友 给 第 一 个 可 用 的 工作 者 。 由 于 交流 的 增 
加 ， 这 个 过 程 需要 一 些 额 外 的 开销 来 进行 管理 ， 并 且 如 果 工 作者 在 相同 的 时 间 点 完成 了 它们 先前 的 任务 ， 那 么 它们 可 能 排队 等 待 分 配 下 一 个 任务 。 因 此 ， 在 每 个 任务 的 计 
算 中 ， 都 需要 有 很 大 的 变化 ， 大 部 分 任务 都 需要 许多 时 间 来 进行 计算 。 


在 我 们 的 运行 示例 中 使 用 clusterApplyLB () 会 导致 整体 运行 时 间 的 改善 (10% 左 右 ) ， 显 车 提高 了 所 有 工作 者 进程 中 的 利用 率 ， 如 下 所 示 : 


> cluster <- makeCluster (4, "PSOCK") 
> teval(clusterApplyLB (cluster,triples,solver) ) 
$Duration 

user system elapsed 

0.586 0.841 421.859 


» stopCluster(cluster) 


Process Name 96 CPU CPU Time | Thr... 4. Idle Wake Ups PID User 
0.0 6:51.47 0 43092 simon 
0.0 6:14.22 0 43084 simon 


0.0 6:12.69 0 43076 simon 
0.0 5:14.08 | 0 43100 simon 


这 里 强调 的 最 后 一 点 是 ， 分 布 工作 负载 的 先 验 均 衡 可 能 是 最 有 效 的 选择 ， 当 可 能 这 么 做 时 。 对 于 运行 示例 ， 执 行 按 parLapply () 排列 的 顺序 选 定 的 16 个 三 元 组 ， 会 
导致 最 短 的 运行 时 间 ， 比 clusterApplyLB () 短 10 秒 ， 这 表明 负载 均衡 相当 于 大 约 3% 的 开销 。 选 定 的 三 元 组 的 顺序 恰好 与 parLapply () 函数 的 四 工作 者 集群 的 任务 包 相 
匹配 。 但 是 ， 这 是 一 个 人 工 构造 方案 ， 对 于 所 有 的 小 薄板 三 元 组 变量 任务 负载 ， 采 用 动态 负载 均衡 是 最 好 的 选择 。 


1.3 segue 包 


到 目前 为 止 , 我 们 已 看 到 在 我 们 自己 的 计算 机 上 如 何 并 行 运行 R。 但 是 ， 由 于 其 资源 有 限 ， 我 们 自己 的 计算 机 只 能 做 到 这 些 了 。 为 了 使 用 基本 上 不 受 限 制 的 计算 ,我 
们 需要 进入 进一步 的 领域 ， 对 于 我 们 这 些 没有 自己 的 私人 数据 中 心 的 人 来 说 ， 我 们 需要 云 。 提 供 云 计算 的 市 场 先驱 是 亚马逊 ， 以 及 它 的 AWS 产 品 ， 特 别 是 它 的 基于 
Hadoop 的 EMR 服 务 可 以 提供 可 靠 的 和 可 扩展 的 并 行 计算 。 


幸运 的 是 ， 有 一 个 特别 的 R 软 件 包 segue， 它 由 James"JD"Long 编 写 并 则 在 简化 建 YAWS EMR Hadoop 集 群 并 从 R 会 话 中 直接 利用 它 运 行 在 我 们 自己 的 计算 机 上 的 全 
过 程 。segue 包 最 适合 用 于 运行 大 规模 仿真 或 优化 问题 ( 即 只 有 少量 数据 但 是 需要 大 量 运 算 的 间 题 ) 因此， 适合 我 们 的 谈 题 求解 程序 。 


在 我 们 开始 使 用 segue 前 ， 有 几 个 先决 条 件 我 们 需要 解决 : 首先 ， 安 装 segue 包 及 其 依赖 的 包 ; 其 次 ， 确 保 我 们 有 一 个 合适 的 安装 AWS 账 户 。 


si 


Nes: 需要 信用 卡 ! 


当 我 们 使 用 segue 示 例 进 行 说 明 时 ， 需 要 注意 的 是 ， 我 们 会 承担 费用 。AWS 是 有 偿 服 务 ， 虽 然 可 能 有 一 些 免费 的 AWS 服 务 产 品 ， 且 我 们 运行 的 示例 仅仅 需要 几 美 元 ,但 
你 需要 特别 注意 你 使 用 的 AWS 的 各 个 方面 所 产生 的 费用 。 关 键 是 你 熟悉 AWS 控 制 台 以 及 如 何 控 制 你 的 账户 设置 、 你 每 月 的 账单 报表 ， 特 别 是 EMR、 弹 性 云 计算 (EC2) 和 
简单 的 存储 服务 (S3) (这 些 是 本 章 中 运行 Segue 示 例会 产生 的 要 素 。 如 果 你 想 了 解 这 些 服务 的 介绍 ， 请 查阅 下 面 的 链接 : 


http://docs.aws.amazon.com/awsconsolehelpdocs/latest/ gsg/ getting-started.html o 


https://aws.amazon.com/elasticmapreduce/ o 


因此 ， 及 时 通知 银行 经 理 ， 让 我 们 开始 吧 。 


1.3.[1 ”安装 segue 


segue 包 目前 不 是 一 个 可 用 的 CRAN 包 。 你 需要 从 以 下 位 置 下 载 : 
https://code.google.com/p/segue/downloads/detail?name=segue 0.05.tar.gz&can=2&q=。 


segue 包 依赖 两 个 其 他 的 包 : [Java 和 caTools。 如 果 这 两 个 包 没 有 在 你 的 R 环 境 中 ， 你 可 以 直接 从 CRAN 安 半 它 们 。 在 Rstudio 中 ， 这 可 以 通过 单 击 Install 按 钮 从 


Packages 选 项 卡 中 完成 。 这 会 弹出 一 个 对 话 框 ， 你 可 以 在 其 中 键入 需要 安装 的 名 称 rJava 和 caTools。 
当 你 下 载 了 segue 后 ， 你 就 可 以 用 相似 的 方式 在 Rstudio 中 安装 它 。Install Packages 弹 出 一 个 选项 ， 你 可 以 从 Repository (CRAN, CRANextra) 切换 到 Package 


Archire File， 然 后 可 以 浏览 你 下 载 的 Segue 包 的 位 置 并 安装 它 。 简 单 地 在 R 中 加 载 Segue 库 然后 加 载 它 依赖 的 包 ， 如 下 所 示 : 


> library (segue) 
Loading required package: rJava 
Loading required package: caTools 


Segue did not find your AWS credentials. Please run the 
setCredentials() function. 


segue 包 通过 它 的 安全 APl 与 AWS 进 行 交 互 ， 相 应 地 这 只 能 在 你 拥有 自己 特定 的 AWS 和 凭证 ( 即 你 的 AWS 访 问 密 钥 ID 以 及 访问 密码 ) ， 才 可 以 使 用 。 这 对 密 钥 必须 通过 
消 数 setCredentials () 提供 给 segue。 在 下 一 节 中 ， 我 们 将 看 看 如 何 设置 你 的 AWS 账 户 以 便 获 得 你 的 根 API 密 钥 。 


1.3.2 ”设置 AWS 账 户 


我 们 假定 你 已 经 成 功 在 http://aws.amazon.com 上 建立 了 一 个 AWs 账 户 ， 并 且 提 供 了 你 的 信用 卡 信息 等 ， 通 过 了 电子 邮件 验证 过 程 。 如 果 是 这 样 ， 那 么 下 一 步 是 获 
取 你 的 AWS 安 全 凭证 。 当 你 登录 到 AWS 控 制 台 时 ， 单 击 你 的 名 字 (在 屏幕 的 右上 角 ) ， 从 下 拉 菜 单 中 选择 Security Credentials (安全 凭证 ) 。 如 图 1-5 所 示 。 


c c= https://console.aws.amazon.com/elasticmapreduce/home/?region=us-east- ] = 


Pe Services v Edit * mona N. Virginia ~ Help v 


Elastic MapReduce ~ Cluster List EMR Help 


My Account 


í Billing & Cost Management 


Security Credentials 
Filter: Aili clusters s | Filter clusters 13 clusters (all loaded) 


Name Status Sign Out Elapsed t 


图 1-5 


在 图 1-5 中 ， 你 可 以 注意 到 我 已 经 登录 到 了 AWS 控 制 台 (可 通过 访问 https://console.aws.amazon.com) , 并且 已 经 浏览 了 在 北 弗 吉 尼 亚 亚马逊 美国 - 东 -1 区 域内 的 
我 的 EMR 和 集群 (通过 左上 角 的 Services (服务 ) 下 拉 菜 单 ) 。 


这 是 亚马逊 数据 中 心 区 ，segue 使 用 它 局 动 它 的 EMR 集 群 。 在 你 的 账户 名 的 下 拉 菜 单 中 选择 Security Credentials (AAA) ， 你 将 看 到 以 下 页 面 ( 见 图 1-6) 。 


httos://console.aws.amazon.com/iam/home?’#security credential 


Simon = Global ~ Help v 


« Your Security Credentials 


Use this page to manage the credentials for your AWS account. To manage credentials for AWS Identity and Access 
Management (IAM) users, use the IAM Console. 


To learn more about the types of AWS credentials and how they're used, see AWS Security Credentials in AWS 
General Reference. 


+ Password 
Identity Providers 


Multi-Factor Authentication (MFA) 
Password Policy 


Access Keys (Access Key ID and Secret Access Key) 


Credential Report 


CloudFront Key Pairs 
X.509 Certificates 


Account Identifiers 


图 1-6 


在 这 个 页 面 上 ， 只 需 展 开 Access keys (访问 键 ) 选项 卡 (B+) ， 然 后 单 击 出 现 的 Create New Access key (创建 新 的 访问 密 钥 ) 按钮 (注意 ， 如 果 你 已 经 有 两 个 
可 用 的 安全 密 钥 ， 这 个 按钮 将 不 可 使 用 ) 。 这 将 弹出 有 新 产生 的 密 钥 的 对 话 框 〈 见 图 1-7) ， 你 应 该 立即 下 载 并 妥善 保存 。 


Create Access Key 


Your access key (access key ID and secret access key) has been created successfully. 


Download your key file now, which contains your new access key ID and secret access key. If you do not 


download the key file now, you will not be able to retrieve your secret access key again. 


To help protect your security, store your secret access key securely and do not share it. 


> Show Access Key 
Download Key File Close 


让 我 们 看 看 这 个 提示 : 


ases. 保持 你 的 赁 证 在 任何 时 候 都 安全 1 
你 必须 保持 你 的 AWS 访 问 密 钥 在 任何 时 候 都 安全 。 如 果 在 任何 时 候 你 觉得 这 些 密 钥 被 其 他 人 知道 了 ， 你 应 该 立即 登录 到 你 的 AWS 账 户 ， 访 问 这 个 页 面 ， 禁 用 你 的 密 
钥 。 这 是 创建 新 密 钥 对 的 简单 流程 ， 在 任何 情况 下 ， 亚 蕊 撑 推 荐 的 安全 实践 是 定期 重 置 你 的 密 钥 。 不 言 而 喻 ， 在 你 调用 的 segue 包 setCredentials () 地 方 ， 特 别 是 在 你 自己 


的 计算 机 上 ， 你 应 该 保留 R 脚 本 。 


1.3.3 ”运行 segue 
segue 的 基本 操作 遵循 着 类 似 的 模式 ， 与 我 们 前 一 节 中 的 parallel 包 的 集群 匈 数 有 相似 的 名 字 ， 即 ， 


> setCredentials("<Access Key ID>","<Secret Access Key>") 

> cluster <- createCluster (numInstances=<number of EC2 nodes») 
> results <- emrlapply(cluster, tasks, FUN, 

taskTimeout=<10 mins default>) 


> stopCluster(cluster) ## Remember to save your bank balance! 


要 注意 的 关键 问题 是 ， 只 要 创建 了 集群 ， 亚 马 逊 残 会 以 美元 进行 收费 ， 直 到 你 成 功 调用 stopCluster () ， 即 使 你 从 未 成 功 调用 emrlapply () 并 行 计算 函 数 。 


createCluster () 函数 有 很 多 参数 (详情 见 下 表 ) ， 但 我 们 的 主要 重点 是 numlnst-ances 参 数 ， 因 为 它 决定 在 底层 EMR Hadoop 集 群 中 使 用 的 并 行 度 一 即 集群 中 使 
用 的 独立 EC2 计 算 节 点 的 数量 。 然 而 ， 当 我 们 使 用 Hadoop 作 为 云 计算 框架 时 ， 集 群 中 的 一 个 实例 必须 作为 专用 主 进程 ， 负 责 向 工作 者 分 配 工作 和 整理 并 行 MapReduce 操 
作 的 结果 。 因 此 ， 如 果 我 们 想 要 部 署 15 路 并 行 ， 那 么 我 们 需要 创建 一 个 有 16 个 实例 的 集群 。 

emrlapply () 要 注意 的 另 一 个 关键 问题 是 ， 你 可 以 有 选择 地 指定 一 个 任务 超时 选项 (默认 是 10 分 钟 ) 。Hadoop 主 进程 将 所 有 在 超时 周期 内 未 交付 结果 (或 产生 MO 
文件 ) 的 任务 视 为 失败 的 ， 然 后 取消 任务 执行 (并 且 不 会 被 男 一 个 工作 者 重 试 ) ， 将 为 这 个 任务 产生 一 个 空 结果 并 最 终 由 emrlapply () 返回 。 如 果 你 知道 有 可 能 超过 默 
认 超 时 的 一 个 任务 (如 仿真 ) ， 那 么 你 应 该 将 超时 选项 设置 为 更 高 的 值 (单位 是 分 钟 ) 。 请 注意 ， 你 应 该 避免 产生 无 限 运行 的 工作 者 进程 ， 该 进程 将 快速 消耗 你 的 信和 仿 余 


额 。 
1.createCluster () 的 参数 


createCluster () 国 数 有 许多 参数 来 选择 可 用 的 资源 和 配置 在 AWS EMR Hadoop 中 运行 的 R 环 境 。 下 表 总 结 了 这 些 配置 参数 。 看 看 下 面 的 代码 : 


createCluster (numInstances=2,cranPackages=NULL, 
customPackages=NULL, filesOnNodes=NULL, 
rObjectsOnNodes=NULL, enableDebugging=FALSE, 
instancesPerNode=NULL, masterInstanceType-"ml.large", 


slavelnstanceType-"ml.large", location-"us-east-1c", 


ec2KeyNamezNULL, 


copy.image-FALSE, otherBootstrapActions=NULL, 


sourcePackagesToInstall-NULL, masterBidPrice=NULL, 
slaveBidPrice=NULL) 
returns: reference object for the remote AWS EMR Hadoop cluster 


参数 [ A= ] 


numinstances 
[ 默认 三 2] 
cranPackages 


[ 默认 三 NULLI] 


customPackages 


[ 默认 = 三 NULT] 


fileOnNodes 
[ 默认 三 NULT] 


robjectsOnNodes 
[ SRA —NULI] 


enableDebugging 
[ SG = FALSE] 


instancesPerNode 


[ ERIA =NULL] 


这 是 使 用 的 并 行 度 (-1)， 等 于 1X EHA ( numInstances-1) X & 
REA AY worker EC2 节点 。 有效 范围 是 最 小 值 三 2 5 Cnm) 最 天 值 三 20 之 间 


这 个 参数 表示 在 集群 局 动 阶段 加 载 到 每 个 节点 的 及 会 话 的 CRAN 1% 
的 回 量 


这 个 参数 表示 在 集群 启动 阶段 加 载 到 每 个 节点 的 及 会 话 的 本 地 拥有 的 包 
SUES lat. segue 包 会 使 用 AWS API NERA IC PES Sh 主机 复制 到 
远程 的 AWS 集群 

这 个 参数 是 本 地 文件 名 的 向 量 , 在 smrlappLv() 期 间 ， 通 常 拥有 需要 
在 其 部 分 执行 期 间 利 用 并 行 函 数 显 式 读 人 的 数据 。segmue 会 利用 AWS API 
将 这 些 文件 从 本 地 主机 复制 到 远程 AWS 集群 。 然 后 将 它们 放 在 相对 于 节点 
的 当前 工作 目录 下 ， 并 且 可 用 "” . / filename" 进行 访问 

这 个 参数 是 连接 到 每 个 工作 者 节点 上 的 及 会 话 的 命名 及 对 象 的 列表 。 在 
R 中 用 help (attach) 可 以 获得 更 多 信息 

打开 /关闭 EMR 集群 调试 。 如 果 设 置 为 TURE， 它 将 允许 由 节点 生成 的 
— AWS 日 志文 件 ， 其 可 以 帮助 诊断 特别 的 问题 。 你 可 以 使 用 AW 控制 

， 并 可 能 需要 使 SSH 登录 到 节点 上 以 查看 日 志文 件 并 进行 调试 

这 是 在 每 个 EC2 计算 节点 上 运行 的 及 会 话 实例 的 数量 。 由 AWS 设置 默认 

值 。 目 前 ， 默认 是 每 个 工作 者 一 个 R 会 话 一 一 即 每 个 EC2 计算 节点 一 个 实例 


参数 [ 默认 = 值 ] 


maserinstanceType 
[默认 二 "ml .large"] 
slaveInstanceType 


[ 默认 二 "ml.large"] 


location 


[SC il —"us-east-1c"] 
ec2KeyName 
[ Sil =NULL] 


copy.image 


[ SA =NULL] 


otherBootStrapActions 


[ 默认 — NULL] 


sourcePackagesToInstall 
[ SA —NULI] 
masterBidPrice 


[ SUA =NULL] 


slaveBidPrice 


[ iA =NULL] 


2.AWS 控 制 台 视图 


这 是 主 节 点 启动 的 AWS EC2 实例 类 型 。 为 了 使 segue 正确 运行 ， 这 必 
须 是 一 个 64 位 实例 类 型 。 有 效 的 实例 类 型 是 : 链接 

这 是 工作 者 节点 启动 的 AWS EC2 实例 类 型 。 为 了 使 segue 正确 运行 ， 
这 必须 是 一 个 64 位 实例 类 型 。 有 效 的 实例 类 型 是 : 链接 

这 是 AWS 区 域 和 运行 Hadoop 集群 的 可 用 区 

在 编写 的 时 候 ， 这 个 值 不 能 成 功 修 改 为 在 不 同 的 AWS 区 域 启动 EMR 

这 是 用 于 登录 到 EMR 集群 中 的 主 节 点 的 EC2 密 钥 。 相 关联 的 用 户 名 是 
"hadoop" 

如 果 它 是 TURE ， 那 么 整个 当前 本 地 R 会 话 状态 都 将 保存 、 复 制 ， 然 后 加 
载 到 每 个 工作 者 的 及 会 话 中 。 请 谨慎 使 用 它 


这 个 参数 是 在 集群 节点 上 执行 的 引导 操作 的 列表 

这 个 参数 是 获得 在 集群 中 的 每 个 工作 者 R 会 话 中 安装 的 包 的 来 源 的 完整 
X PERS TS B [8] fc 

如 果 可 用 ， 这 是 支付 给 现货 实例 主 节 点 的 AWS WHER. A 
下 ， 将 部 署 和 收取 指定 masterInstance 参数 的 标准 按 需 EC2 节点 

如 果 可 用 ， 这 是 支付 给 现货 实例 工作 者 节点 的 AWS 期 望 的 价格 。 默 认 
情况 下 ， 将 部 署 和 收取 指定 slaveInstanceType 参数 的 标准 按 需 EC2 


bi 
EET 


在 操作 中 ，segue 必 须 执行 大 量 工作 来 启动 远程 托管 的 EM R 集 群 。 这 包括 请 求 EC2 资 源 以 及 利用 启动 配置 和 结果 收集 的 文件 传输 的 S3 存 储 区 。 通 过 由 segue 使 用 在 


图 1-8 是 由 segue 创 建 的 EMR 集 群 AWS 控 制 台 视图 。 它 刚刚 完成 了 emrla-pply() 并 行 计算 阶段 (你 可 以 看 到 刚才 执行 的 步骤 ， 它 在 屏幕 的 中 心 运行 了 34 分 钟 )， 现 
在 是 等 待 状态 ， 准 备 执行 提交 的 更 多 任务 。 你 可 以 注意 到 ， 在 图 1-8 的 左下 方 ， 有 一 个 主 进程 和 作为 ml.large 实 例 运行 的 15 个 核心 工作 者 进程 。 你 还 可 以 友 现 ，segue 在 集 
群生 成 时 在 集群 上 执行 了 两 个 引导 操作 ， 安 装 最 新 版 本 的 R 并 确保 所 有 的 R 包 都 是 最 新 的 。 在 为 计算 操作 准备 集群 时 引导 操作 显然 会 造成 额外 开销 。 


Web 浏 览 器 上 操作 的 AWS 控 制 台 来 使 用 AWS API 配 置 资源 是 十 分 有 用 的 。 使 用 AWS 控 制 台 是 解决 在 集群 的 配置 和 运行 期 间 所 有 问题 的 关键 。 从 根本 上 说 ， 每 当 segue 进 
程 出 错时 ，AWS 控 制 台 是 释放 资源 的 最 后 方式 〈 因 此 进一步 限制 开销 ) 


， 这 是 由 许多 原因 造成 的 。 


请 注意 ， 在 这 个 屏幕 中 ， 通 过 单 击 图 1-8Terminate (终止 ) 按钮 ， 你 可 以 选择 一 个 集群 并 手动 终止 它 ， 释 放 人 资源 并 防止 更 多 的 收费 。 


Filter: Ail clusters $ | Filter clusters ... 


Name Creation time (UTC+1) ~ 


RJob-Sun Oct 19 20:50:11 


2014 2014-10-19 20:50 (UTC+1) 


Master ec2-54-164-238-82 compute- Status Start time (UTC+1) w Elapsed time 
public ONS; | amazonaws.com 


: n 12.2090:25.16108 Completed — 2014-10-19 20:56 (UTC« 1) — 34minutes 
protection: Off Change 
Tags: — View Ai / Edit 
Hardware 
Master: Running 1 mi,arge 
Core: Running 15 mttarge 
Task: 一 


View cluster details 


图 1-8 


EMR 资 源 由 EC2 实 例 组 成 ， 图 1-9 显 示 了 关于 一 个 EC2 运 行 实例 “硬件 ”的 等 价 视图 。 它 们 仍然 在 运行 中 ， 记 录 AWS 收 费 的 CPU 时 间 ， 即 使 它们 在 空 内 并 等 待 分 配 任 
务 时 。 尽 管 EMR 使 用 EC2 实 例 ， 但 从 这 个 窗口 中 ， 你 通常 不 会 从 EMR 集 群 中 终止 一 个 EC2 实 例 。 你 只 能 使 用 从 前 面 窗 中 的 主 EMR Cluster List (集群 列表 ) 选项 中 的 
Terminate (终止 ) 集群 操作 。 


最 后 值得 一 看 的 AWS 控 制 台 窗口 是 S3 存 储 窗口 。segue 包 创建 了 3 个 独立 的 存储 桶 (名字 的 前 经 是 特定 的 随机 字符 串 ) ， 而 所 有 的 意图 和 目的 ， 可 以 认为 是 3 个 独立 的 
顶层 目录 ， 在 其 中 有 各 种 不 同类 型 的 文件 。 这 些 包含 集群 特定 的 日 志 目 录 (后 缀 为 segue-logs) 、 配 置 目录 (后缀 为 Segue) 和 任务 结果 目录 (后 缀 为 Segueout) , 


下 面 是 先前 窗口 中 与 集群 相关 的 segueout 后 级 目录 中 的 results 子 目录 的 视图 ( 见 图 1-10) , 显示 了 在 Hadoop 工 作者 处 理 单个 任务 时 ，Hadoop 工 作者 节点 产生 的 单 
个 "part-XXXX" 结 果 文 件 。 


= 


P ¥ Simon = N. Virginia = Help = 
Console Hore adi gin p 


EC? Dashboard s 
Events t o [2] 


Tags 1 to 36 of 36 
Reports 


Limits Instance ID ~ Instance Type ~ Availability Zone = Instance State + Status Checks Public DNS 


i-2d48466c7 m1 large us-east-1c J running 2/2 checks ec2-54-172-170-64.co 
Instances i-3a8466980 nt.large us-east-1c 9 unn 2/2 checks None 0C2-54-172-176-213.co0 
Spot Requests i-38846642 ! large us-east- 2 2/2 checks None ec2-54-172-181-141.co. 
Reserved Instances 39846643 ! large us-edst-1c 2 2/2 checks None 6c2-54-172-180-23.c0 

i-3t6466d5 large us-east-1c 2/2 checks vone ec2-54-172-171-205.co 
AMIs i-3cB466d6 ! large us-east- 2/2 checks None 2-54-172-181-41 co 
Bundle Tasks i-3d48466d7 ! large us-east-1c . © 2/2 checks None 165-246.co 
|-32846608 large us-east- 2/2 checks .. None -187-199.co. 
Volumes i-338466d9 j large US-east- O 2/2 checks None -172-187-230.co 


napshot 
Snap " i-308466daà ! large u$-easi-1c J 2/2 checks None :188-219.co 


" 
54 
sx 
54 
54 
Sx 
54 
54 
54 
54 


i-318466db large us-east-1c O 2/2 checks None 


Security Groups apa sep rae 


Elastic IPs 


> Select an instance above Seo 
Placement Groups 


Privacy Policy Terms of Use Feedback 


tps:/ /consote.aws.amazon.com/console/hormne?region«us-east-1 


Name 
C) pan-00000 
[ part-0000: 
[C] par-00003 
[C] pan-00004 
口 par-00006 
[C] pan-00007 
[C] par-00009 
[C] part-00010 
[C] part-0001 
['] part-00013 
C) par-00014 
['] part-00017 
['] part-00018 
[0] part-00022 


Mttips 


All Buckets / rtmphcnz7ibnqkqljora-segueout 


' results 


/ /console.aws.amazon.com/53/home?regioneus-east- 14 


Simon * Global ~ Help > 


Last Modified 

Sun Oct 18 21:07:58 GMT « 100 2014 
Sun Oct 19 21:04:11 GMT« 100 2014 
Sun Oct 19 21:12:44 GMT +100 2014 
Sun Oct 19 21:03:25 GMT « 100 2014 
Sun Oct 19 21:08:59 GMT « 100 2014 
Sun Oct 19 21:04:13 GMT «100 2014 
Sun Oct 19 21:09:04 GMT «100 2014 
Sun Oct 19 21:06:58 GMT«100 2014 
Sun Oct 19 21:11:45 GMT« 100 2014 
Sun Oct 19 21:11:13 GMT « 100 2014 
Sun Oct 18 21:13:42 GMT «100 2014 
Sun Oct 19 21:04:29 GMT «100 2014 
Sun Oct 19 21:11:07 GMT «100 2014 
Sun Oct 19 21:13:37 GMT «100 2014 


图 1-10 
1.3.4 SARE AE SR 
余 于 ， 我 们 现在 可 以 并 行 运行 我 们 的 谜 题 求解 程序 了 。 这 里 ， 我 们 选择 运行 16FC2 节 点 的 EMR 集 群 ， 相 当 于 一 个 主 节点 和 15 个 核心 工作 者 节点 (所 有 m1.large 实 


例 ) 。 应 当 指 出 的 是 ， 启 动 和 再 次 关闭 远程 AWS EMR Hadoop 集 群 会 带 来 相当 大 的 开销 。 运 行 下 列 代码 : 


> setCredentials("<Access Key ID>","<Secret Access Key>") 

= 

> cluster <- createCluster (numInstances=16) 

STARTING - 2014-10-19 19:25:48 

## STARTING messages are repeated -every 30 seconds until 

4&4 the cluster enters BOOTSTRAPPING phase. 

STARTING - 2014-10-19 19:29:55 

BOOTSTRAPPING - 2014-10-19 19:30:26 

BOOTSTRAPPING - 2014-10-19 19:30:57 

WAITING = 2014-10-15 19:31:28 

Your Amazon EMR Hadoop Cluster is ready for action. 

Remember to terminate your cluster with stopCluster(). 

Amazon is billing you! 

## Note that the process of bringing the cluster up is complex 
## and can take several minutes depending on size of cluster, 
## amount of data/files/packages to be transferred/installed, 
## and how busy the EC2/EMR services may be at time of request. 


> results <- emrlapply(cluster, tasks, FUN, taskTimeout-10) 
RUNNING - 2014-10-19 19:32:45 

## RUNNING messages are repeated -every 30 seconds until the 
## cluster has completed all of the tasks. 

RUNNING - 2014-10-19 20:06:46 

WAITING - 2014-10-19 20:17:16 


> stopCluster(cluster) ## Remember to save your bank balance! 
## stopCluster does not generate any messages. If you are unable 
## to run this successfully then you will need to shut the 


## cluster down manually from within the AWS console (EMR). 


AISI, emrlapply () 计算 阶段 用 了 34 分 钟 左右 一 不 错 ! 但 是 ， 局 动 和 结束 阶段 用 了 许多 时 间 ， 使 这 方面 的 开销 相当 大 。 当 然 ， 我 们 可 以 运行 更 多 节点 实例 ( 目 
前 在 AWS EMR 上 最 多 20 个 ) ， 我 们 可 以 使 用 比 m1.large 更 有 效 的 实例 来 加 速 计算 过 程 。 然 而 ， 这 样 的 进一步 试验 我 将 交 给 你 ， 杀 爱 的 读者 ! 


Nlemrlapply () 中 的 AWS 错 误 


偶尔 ， 调 用 emtlapply () 会 失败 ， 产 生 如 下 类 型 的 错误 信息 : 


J Status Code: 404, AWS Service: Amazon S3, AWS Request 
ID: 5156824COBE09D70, AWS Error Code: NoSuchBucket, 
AWS Error Message: The specified bucket does not exist... 


这 是 一 个 已 知 的 segue 问 题 。 解 决 方法 是 禁用 你 现 有 的 AWS 人 凭证 并 生成 新 的 根 安全 密 钥 对 ， 手 动 终止 由 segue 产 生 的 AWS EMR 集 群 ， 重 启 你 的 R 会 话 ， 调 用 
setCredentials () 来 更 新 你 的 AWS 窗 钥 ， 然 后 再 次 尝试 。 


分 析 结 果 


在 图 1-11 中 可 以 发 现 ， 如 果 我 们 绘制 各 自 的 运行 时 间 来 使 用 R 的 内 置 函数 barplot () 计算 每 个 90 起 始 的 小 薄板 三 元 组 的 可 能 解 ， 那 么 我 们 将 看 到 问题 域 的 一 些 有 趣 的 
特性 。 正 确 的 解 由 深 色 条 纹 表示 ， 其 他 的 都 是 失败 的 。 


AWS EMR Solver Execution Profile 


First Three Tiles 
011819 041618 061319 071516 081614 091514 101513111512 130916 150518 


| 


0 50 100 150 200 250 300 350 
Elapsed Times(s) 
Boards=90--Min=0m4s Max=6m8s Avg=3m13s--Fastest solution 031718 in 12s 
图 1-11 


首先 ,我 们 可 以 注意 到 ， 我 们 只 确定 了 6 个 板 起 始 的 小 薄板 三 元 组 配置 ， 它 产生 了 一 个 正确 解 。 我 不 会 在 这 里 说 明 这 个 解 。 其 次 ， 探 索 每 个 小 薄板 三 元 组 的 求解 空间 
的 时 间 有 很 大 的 变化 ， 最 长 与 最 短 为 6 分 钟 和 4 秒 ， 最 快 的 完全 解 仅 需要 12 秒 。 因 此 ， 计 算 非 常 不 均衡 ， 这 证 实 了 我 们 之 前 展示 的 运行 示例 。 增 加 先前 放置 的 小 注 板 的 值 所 
消耗 的 时 间 趋 向 于 越 来 越 长 ， 例 如 ， 如 果 我 们 引入 启发 式 以 提高 求解 程序 的 能 力 ， 那 么 选择 最 适合 的 下 一 个 放置 的 小 注 板 是 值得 进行 进一步 调查 的 。 


求解 全 部 90 个 板 配置 的 标 计 时 间 为 4 小 时 50 分 钟 。 为 解释 这 些 结果 ， 我 们 需要 验证 运行 时 间 并 不 是 用 户 时 间 和 系统 时 间 的 总 和 。 对 于 这 次 执行 得 到 的 结果 ， 相 比 (用 
户 + 系 统 ) 时 间 ， 运 行 时 间 有 最 大 1% 的 不 同 。 我 们 当然 希望 这 样 ， 通 过 segue 为 AWS EMR Hadoop 集 群 的 专用 资源 买单 。 
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在 本 章 中 ， 我 们 介绍 了 3 种 简单 而 又 不 同 的 利用 R 并 行 性 的 方法 ， 利 用 你 自己 计算 机 的 多 核 处 理 能 力 ， 用 基础 R parallel 包 操作 FORK 和 PSOCK 实 现 集群 ， 通 过 segue 包 
直接 从 你 计算 机 使 用 云 上 的 远程 托管 的 较 大 规模 的 AWS EMR Hadoop 集 群 。 


在 这 个 过 程 中 ， 你 学 习 了 如 何 将 一 个 问题 有 效 地 分 割 为 独立 的 并 行 任务 以 及 如 何 通过 动态 负载 均衡 任务 管理 处 理 不 均衡 计算 。 你 也 看 到 了 如 何 有 效 地 为 代码 的 运行 时 
提供 仪器 、 基 准 测试 以 便 确 定 串 行 和 并 行 的 性 能 改善 。 事 实 上 ， 作 为 一 个 额外 的 挑战 ， 目 前 evaluateCell () 的 实现 可 以 自己 进行 改进 和 加 速 .…… 


现在 也 解决 了 亚 里 士 多 德 数 这 ， 如 果 这 激 起 了 你 的 兴趣 ， 那 么 你 可 以 在 http://en.wikipedia.org/wikVMagic_ hexagon 上 发 现 更 多 关于 神奇 的 六 角形 的 信息 。 谁 知道 
呢 ， 你 甚至 可 以 应 用 新 的 并 行 R 技 巧 来 发 现 一 个 新 的 神奇 六 边 形 的 解 。 


本 章 给 出 了 使 用 R 的 最 简单 的 并 行 方法 的 重要 基础 。 你 现在 应 该 可 以 直接 将 这 些 知 识 应 用 到 你 自己 的 环境 中 并 加 速 你 自己 的 R 代 码 运行 。 在 本 书 其 余部 分 ， 我 们 将 关注 
并 行 性 的 其 他 形式 和 框架 ， 这 些 可 以 用 来 处 理 更 多 的 规模 数据 密集 型 问题 。 你 可 以 或 者 直接 阅读 本 书 从 这 里 到 结尾 ， 第 6 章 ， 它 总 结 了 学 习 成 功 的 并 行 编程 的 关键 ; 或 者 
你 可 以 阅读 特定 的 章节 以 学 习 特 定 的 技术 ， 例 如 ， 第 2 章 、 第 3 章 、 第 4 章 使 用 MPI 的 基于 显 式 消息 传递 的 并 行 性 和 第 ? 章 使 用 DpenCL 的 GPU 加 速 并 行 性 。 


还 有 一 个 额外 的 章节 向 你 介绍 Apache spark， 它 是 实现 文 持 复 杂 分 析 的 分 布 式 并 行 计 算 的 最 新 和 最 流行 的 框 以 乙 一 ， 可 以 说 是 建立 的 基于 Hadoop 的 Map/Reduce 的 
继承 者 ， 也 可 以 用 于 实时 数据 分 析 。 
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在 本 章 中 ， 我 们 将 首先 看 看 较 低级 别 的 并 行 性 : 在 多 个 交互 式 R 进 程 中 显 式 的 消息 传递 。 我 们 将 使 用 在 笔记 本 电脑 、 云 集群 和 超级 计算 机 上 的 多 种 形式 的 标准 消息 传 
eis] (MPI) API. 


在 本 章 中 ， 你 将 学 习 : 

- MPI API 以 及 如 何 通 过 两 个 不 同 的 R 包 Rmpi 和 pbdMPI 使 用 它 ， 连 同 通信 子 系统 的 OpenMPI 实 现 。 
- 阻塞 与 非 阻塞 的 点 对 点 通信 。 

. 基于 组 的 集体 通信 。 


在 接 下 来 的 两 章 中 ， 我 们 将 探讨 一 种 更 高 级 的 方式 使 用 MPI1， 包 括 基于 网 格 的 并 行 处 理 以 及 在 实际 的 超级 计算 机 上 衡量 R。 但 是 ， 现 在 我 们 将 介绍 MPI， 再 次 使 用 我 们 
自己 的 苹果 计算 机 作为 目标 计算 环境 ， 也 提供 了 在 微软 Windows 系 统 上 使 用 MPI 运 行 需要 的 信息 。 


2.1 为 MPI 设 置 系统 环境 


为 了 在 R 中 使 用 MPI， 有 很 多 我 们 需要 安装 的 先决 条 件 。 相 比 于 其 他 的 R 包 ， 该 情景 是 一 个 比较 复杂 的 MPI 设 置 ， 我 们 需要 MPI 的 R 接 口 和 可 以 将 其 调用 的 MPI 的 实 
现 。 我 们 也 有 许多 可 供 选 择 的 R 包 以 及 底层 的 MPI 子 系统 。 


2.1.1 为 MPI 选 择 R 包 


有 两 个 可 用 的 基于 MPI 的 R 接 口 包 一 Rmpi 和 pbdMPIl。 


SS Rmpi 可 以 从 CRAN 在 以 下 链接 获取 : https:/ /cran.r-project.org/web/packages /Rmpi/index.html o 
Rmpi 的 主页 是 http://www.stats.uwo.ca/faculty/yu/Rmpi/。 

在 Mac OS 义 上 安装 Rmpi 的 说 明 在 http://www.stats.uwo.ca/faculty/yu/Rmpi/mac_os_x.htm 上 提供 。 

在 Windows 上 安装 Rmpi 的 说 明 在 http://www.stats.uwo.ca/faculty/yu/Rmpi/windows.htm 上 提供 。 
pbdMPI 包 可 以 从 CRAN 在 以 下 链接 获取 : https://cran.rproject.org/web/packages/pbdMPI/index.html o 
大 数据 编程 (pbd) 的 主页 是 http://rtpbd.org/。 


在 Mac OS 义 上 安装 pbdMPI 的 详细 说 明 以 及 屏幕 截图 在 https://raweit.com/wtrathematics/installation-instructions/mastert/output/with_screenshots/html/index_mac.html 上 提 


供 。 


在 Windows 上 安装 pbdMPI 的 详细 说 明 以 及 屏幕 截图 在 https://rawgit.com/wrathematics/installation-instructions/master/output/with_scteenshots/html/index_windows.html 上 提 


供 。 


尽管 每 个 包 都 提供 了 一 个 标准 MPI 实 现 的 接口 ， 但 它们 的 操作 方式 略 有 不 同 ， 提 供 了 它们 自己 特定 的 附加 功能 。 一 个 特别 的 不 同 是 ，Rmpi 可 以 在 交互 式 R 会 话 中 直接 
运行 ， 而 pbdMPI 必 须 使 用 计算 机 系统 的 命令 行 窗口 通过 标准 MPI 特 定 的 局 动 程序 (mpiexec) 才 可 以 运行 。 


2.1.2 选择 MPI 子 系统 


我 们 也 可 以 从 许多 底层 MPI 子 系统 中 选择 并 使 用 这 两 个 R 包 。 在 本 章 中 ， 我 们 将 使 用 兼容 Mac OS X 的 最 受 欢迎 的 开源 MPI 实 现 ， 即 OpenMPI， 尽 管 可 以 用 其 他 方法 
实现 ， 包 括 MPICH 以 及 MS-MPI， 所 有 这 些 都 与 3.0 版 本 的 MPI 标 准 兼 容 。 


(P é 


VA 


-OpenMPI: OpenMPI 始 于 2004 年 ， 目 标 是 建立 一 个 模块 化 、 便 捷 式 的 高 性 能 实现 。OpenMPI 支 持 一 系列 平台 并 可 以 安装 在 Mac OSX 10.7 (Lion) 之 前 的 版 本 中 。 更 


多 的 信息 ， 请 参阅 http://www.open-mpi.org/。 


MPICH: MPICH (在 Chameleon 之 上 的 MPI) 在 1992 年 初次 形成 时 ， 起 源 于 MPI 的 参考 实现 。 从 那 时 起 ， 它 已 被 广泛 应 用 于 超级 计算 机 社区 中 。 更 多 的 信息 ， 请 参 
阅 http://www.mpich.org/。 在 随后 的 章节 中 ， 我 们 将 在 英国 的 ARCHER 超 级 计算 机 上 使 用 MPICH。 


: MS-MPI: 尽管 在 Windows 上 建立 OpenMPI 和 MPICH 在 技术 上 是 可 行 的 ， 但 对 两 者 的 Windows 平 台 的 后 续 开 发 和 支持 最 近 停 止 了 。 然 而 ， 一切 并 没有 失去 ! 你 可 以 从 
下 面 的 链接 中 找到 有 关 微 软 Windows 系 统 的 分 布 式 MPI (MS-MPI) 的 有 关 信 息 ， 包 括 下 载 和 安装 库 ， 可 以 与 Rmpi 和 pbdMPI 使 用 : https://msdn.microsoft.com/en- 
us/library/bb524831 (v=vs.85) .aspxe 


2.1.3 OpenMP! 
如 果 使 用 优秀 的 Homebrew 安 装 软件 ， 在 OS X 上 安装 OpenMPI 是 很 简单 的 。 运 行 以 下 命令 : 
mac:~ brew install openmpi 


& f 
S = Homebrew 


brew 命 令 是 OS 义 的 包 管理 器 ， 它 是 用 Ruby 编 写 的 ， 并 被 OS 义 开发 社区 广泛 使 用 。 关 于 如 何 安装 的 最 新 信息 和 说 明 ， 可 以 参阅 http://brew.sh/ 以 


Ahttps://github.com/Homebrew/homebrew/tree/mabbster/share/doc/homebrew#readme o 
运行 和 拉 取 许多 依赖 关系 会 需要 一 些 时 间 ， 包 括 Gnu Ces (GCC) 。 然 后 ， 你 就 可 以 在 终端 窗口 中 键入 以 下 shell 命 令 语 句 来 检查 安装 是 否 成 功 : 


mac:~ simon$ which mpiexec 
/usr/local/bin/mpiexec 
mac:~ simon$ ls -la /usr/local/bin/mpiexec 


lrwxr-xr-x 1 simon admin 37 7 Sep 15:54 /usr/local/bin/mpiexec -> ../ 
Cellar/open-mpi/1.10.0/bin/mpiexec 


mac:~ simon$ mpiexec --version 
mpiexec (OpenRTE) 1.10.0 
Report bugs to http://www.open-mpi.org/community/help/ 


这 表明 我 安装 的 是 OpenM PI 1.10 并 且 将 其 放 在 标准 系统 目录 nixes 上 一 即 用 符号 将 homebrew 的 默认 "Cellar" 链 接 到 /userlocal。 


2.2 ”MPI 标 准 


你 可 以 查看 完整 的 MPI 3.0 标 准 ， 它 是 一 份 822 页 的 PDF 报告 ， 在 (MPI Ref) http://www.mpi-forum.org/docs/mpi-3.0/mpi30-report.pdf 上 。 
在 撰写 本 书 时 ，MPI 3.1 标 准 友 布 了 (2015 年 6 月 ) 。 虽 然 我 们 还 关注 之 前 的 版 本 ( 即 3.0 版 本 ) ， 但 它们 之 间 的 差异 并 不 是 我 们 的 主题 。M PI 3.0 是 成 熟 的 和 全 面 的 。 


由 于 R 的 一 些 局 限 性 ， 特 别 是 其 固定 的 单线 程 特性 ， 所 以 只 有 MPI 标 准 的 一 部 分 可 以 在 Rmpi 或 pbdMPI 中 实现 。 不 过 ， 点 对 点 和 集体 组 通信 的 所 有 基础 是 可 用 的 ， 我 
们 将 通过 本 章 的 剩余 部 分 来 探索 这 些 。 首 先 ， 我们 需要 了 解 适用 于 MPI 的 一 些 基 础 概念 。 


2.2.1 ”MPI 的 世界 


MPI 认 为 计算 的 每 个 单独 线程 是 一 个 进程 ， 给 每 个 进程 分 配 一 个 唯一 的 排名 (rank) ， 数 字 从 0 到 N-1，N 是 我 们 在 MPI 世 界 创建 的 独立 进程 的 总 数 。 通 信子 
(communicator) 定义 了 在 这 个 世界 中 进程 之 间 交 流 的 范围 。 一 个 进程 可 以 向 另 一 个 或 男 一 组 进程 友 送 信息 ， 并 在 特定 的 通信 子 环境 中 接收 信息 。MPI 提 供 选 择 ， 发 送 
和 接收 进程 是 否 需 要 等 待 从 /向 它们 的 通信 结束 或 进行 其 他 活动 ， 随 后 检查 它 的 完成 。MPI 程 序 可 能 利用 多 个 通信 子 以 便 将 进程 间 的 通信 模式 分 离 使 它们 不 会 混和 想 。 例 如 ， 
考虑 一 个 内 部 利用 MPI 完 成 其 并 行 实现 的 库 函 数 。 其 通信 和 与 在 程序 中 的 任何 其 他 的 MPI 司 用 代码 保持 完全 独立 是 十 分 重要 的 。 

本 质 上 ， 前 一 段 摘 述 了 MPI 的 基本 功能 。 一 切 都 提供 了 额外 的 编程 便利 ， 或 遵循 了 基于 消息 传递 的 并 行 性 管理 的 必然 结果 。 当 然 ， 事 实 上 ， 我 们 也 需要 在 这 个 说 明 中 
加 入 一 后 健 康 的 “ 料 ”、。 


事 不 宜 迟 ， 安 装 了 OpenMPI 后 ， 让 我 们 启动 Rmpi 和 pbdMPI 并 运行 …… 


2.2.2 ”安装 Rmpi 
从 你 的 R 会 话 中 ， 键 入 下 面 的 代码 ， 从 你 选择 的 CRAN 镜 像 中 下 载 并 构建 当前 的 Rmpi 包 : 
> install.packages(""Rmpi"", type-""source"") 
然后 ， 将 建立 的 库 加 载 到 你 的 活动 R 会 话 中 : 
> library (Rmpi) 
为 了 测试 操作 是 否 正确 ， 我 们 将 局 动 Rmpi 包 的 黑 认 主 / 工 作者 配置 ， 执 行 一 个 简单 的 输出 语句 ， 并 立即 天 闭 工 作者 。 应 该 会 看 到 类 似 下 面 的 输出 : 


> mpi.spawn.Rslaves() # Set up Workers 
4 slaves are spawned successfully. 0 failed. 
master (rank 0, comm 1) of size 5 is running on: Simons-Mac-mini 


slavel (rank 1, comm 1) of size 5 is running on: Simons-Mac-mini 


slave2 (rank 2, comm 1) of size 5 is running on: Simons-Mac-mini 
slave3 (rank 3, comm 1) of size 5 is running on: Simons-Mac-mini 
slave4 (rank 4, comm 1) of size 5 is running on: Simons-Mac-mini 


> mpi.remote.exec(paste(""Worker"", mpi.comm.rank(),""of"", mpi.comm. 
size())) 


$slavel 
[1] ""Worker 1 of 5"'" 
$slave2 
[1] ""Worker 2 of 5°" 
$slave3 
[1] ""Worker 3 of 5"" 


Sslave4 


[1] ""Worker 4 of 5"" 


> mpi.close.Rslaves() # Tear down Workers 


你 会 注意 到 ， 在 我 的 系统 中 ， 有 4 个 核心 ， 生 成 了 5 个 MPI 进 程 一 1 个 主 进程 和 4 个 工作 者 进程 ，MPI 排 名 从 0 到 4， 通 过 API 调 用 数字 1 识别 默认 的 通信 子 环境 。 主 进程 是 
交互 式 会 话 ， 而 4 个 工作 者 进程 作为 额外 的 外 部 R 进 程 启动 ， 你 可 以 从 如 图 2-1 所 示 的 Activity Monitor (活动 监视 器 ) (在 mpi.spawn.Rslaves () 之 后 且 在 
mpi.close.Rslaves () 之 前 ) 的 屏幕 截图 看 到 这 些 。 


© 2 O Activity Monitor (All Processes) 
© O 9 - CPU | Memory Energy Disk QR 


Process Name Sent Bytes v Revd B... Sent Pac... Rcvd Packets PID 


3 KB 9 KB 44 54 12780 
3 KB 9 KB 23 32 12782 
3 KB 9 KB 23 34 12785 
3 KB 8 KB 21 26 12784 


图 2-1 Rmpi 启 动 的 R 工 作者 MPI 进 程 的 Activity Monitor 视 图 


你 可 能 注意 到 ， 在 Activity Monitor (活动 监视 器 ) 上 看 Network (网 络 ) 选项 卡 时 ， 即 使 你 没有 执行 任何 并 行 代码 ，Rcvd 数 据 包 的 数量 仍然 在 增加 。 这 正 是 内 部 环 
境 的 OpenMPI “心跳 ”系统 通信 ， 它 确保 所 有 MPI 进 程 仍 在 正确 运行 。 


22.3 ”安装 pbdMPI 

安装 pbdMPI 也 很 简单 。 然 而 ， 建 议 从 系统 shell 命 令 行 而 不 是 从 交互 式 R 会 话 安装 系统 ， 因 为 在 编写 时 ， 你 可 能 会 遇 到 在 OS X 上 需要 略微 调整 动态 库 的 问题 (变通 方 
案 可 以 参考 下 面 的 “在 OS X Yosemite 系 统 中 的 pbdMPI 包 ”) 。 

从 https://cran.r-project.org/web/packages/pbdMPI/index.htmI 下 载 最 新 的 pbdMPI 包 。 


打开 一 个 终端 窗口 ， 改 变 下 载 包 的 目录 (在 本 例 中 ， 是 pbdMPI_0.2-5.tar.gz 并 预 提取 其 中 的 所 有 文件 ) ， 键 入 下 面 的 代码 : 


mac:~ simon$ R CMD INSTALL pbdMPI --configure-args-''--with-mpi- 
type-OPENMPI!' 


在 安 妆 之 前 ， 这 将 编译 pbdMPI 以 使 用 DpenM PI。 假 定 这 一 步 成 功 了 ， 建 议 运 行 包 的 一 个 演示 测试 程序 来 确定 一 切 都 好 了 。 
对 于 pbdMPI， 我 们 总 是 需要 使 用 一 个 特殊 的 命令 mpiexec 来 运行 R 代 码 ， 它 是 OpenMPI 安 装 的 一 部 分 ， 如 下 所 示 : 


mac:~ simon$ cd pbdMPI/inst/examples/test spmd 


mac:- simon$ mpiexec -np 2 Rscript --vanilla allgather.r 


COMM.RANK = 0 
a4 2. X 2 
COMM.RANK = 0 
ij 1.2 2 


如 果 你 成 功 运 行 了 allgather.r 测 试 脚本 ， 那 么 将 看 到 如 前 所 示 的 COMM.RANK 输 出 的 末端。 运行 pbdMPI 测 试 脚本 所 需 的 命令 行 选项 是 在 给 定 R 脚 本 文件 的 顶端 说 明 
的 。 在 这 种 情况 下 ，-np 2 意味 着 有 两 个 MPI 进 程 运行 (这 将 启动 两 个 进程 ， 不 管 你 是 否 使 用 单 核 机 器 ) 。 


Qos X Yosemite 系 统 中 的 pbdMPI 包 


在 Mac 上 使 用 pbdMPI， 可 能 会 遇 到 一 个 特定 的 编译 问题 。 我 确实 在 OS 又 10.10Yosemite 上 过 到了。 编译 pbdMPI 包 的 标准 参数 可 能 会 失败 ， 出 现 类 似 下 面 的 输出 Gz 
意 ， 为 了 简洁 ， 去 挤 了 一 部 分 输出 ) : 


mca: base: component find: unable to open /usr/local/ 
Cellar/open-mpi/1.10.0/lib/openmpi/mca osc sm: dlopen(/ 
usr/local/Cellar/open-mpi/1.10.0/lib/openmpi/mca osc 
sm.so, 9): Symbol not found: ompi info t class 


in /usr/local/Cellar/open-mpi/1.10.0/1lib/openmpi/mca _ 
osc sm.so (ignored) 


No available pml components were found! 


This is a fatal error; your MPI process is likely to 
abort. 


这 个 问题 的 一 个 解决 方案 是 ， 使 用 OS XE AANA, iat WAM, Pte TRH a OpenMP È RREK S. BHA, Am RMF RR S2 
下 ， 重 建 pbdMPI 包 ， 如 下 所 示 : 


mac:- simon$ R CMD INSTALL pbdMPI --configure-args-''-- 
with-mpi-type-OPENMPI'' --no-test-load 


现在 应 该 成 功 构 建 并 将 ppdMPI 包 安装 到 了 系统 的 标准 R 库 中 。 现 在 ， 每 当 你 运行 mpiexec 时 ， 确 保 动 态 加 载 程序 shell 环 境 变量 DYLD_INSERT_LIBRARIES 是 如 下 设置 的 
(OpenMPI 被 安装 在 系统 的 标准 /usr/local B RF) : 


mac:- simon$ export 
DYLD INSERT LIBRARIES-/usr/local/lib/libmpi.dylib 


你 还 可 以 添加 此 设置 到 主 目录 的 shell 的 启动 脚本 中 (~/.bashrc) ， 这 样 当 你 打开 一 个 新 的 终端 窗口 时 ， 它 就 会 自动 设置 。 


2.3 MPI API 


我 们 将 把 MPI API 的 内 容 分 为 两 部 分 : 首先 ， 点 对 点 通信 ; 其 次 ， 分 组 集体 通信 。 核 心 通信 之 上 的 额外 功能 将 企 随后 的 高 级 MPI API 章 节 介绍 。 


首先 ， 我 们 需要 解释 Rmpi 和 pbdMPI 采 用 的 并 行 性 方式 之 间 的 一 些 不 同 。 我 们 已 经 探讨 了 Rmpi 可 以 在 交互 式 R 会 话 中 直接 运行 ， 而 pbdM PI R 程 序 只 能 使 用 mpiexec 
从 命令 shell 中 运行 (Rmpi 程 序 也 可 以 使 用 mpiexec 运 行 ) 。 


Rmpi 采 用 主 /工作 者 范式 并 且 利 用 MPI_Comm _spawn () 内 部 动态 局 动工 作者 进程 ， 其 中 正在 局 动 的 R 会 话 是 形成 计算 集群 的 主 进程 和 工作 者 进程 。 可 能 包含 MPI 通 
信 的 代码 块 由 主 进程 下 发 到 工作 者 集群 远程 执行 ， 每 个 执行 Rmpi 守 护 进 程 方式 的 R 脚 本 主动 等 待 用 MPI_Bcast () 广播 给 它们 的 下 一 个 命令 。 完 成 后 ， 结 果 将 集体 返回 给 
等 待 的 主 进程 。 


pbdMPI 包 采用 单程 序 多 数据 (SPMD) 方法 ， 即 所 有 并 行进 程 具有 相同 的 计 费 并 运行 相同 的 代码 ， 以 及 MPI 通 信 统 一 地 应 用 MPI 中 的 所 有 进程 (除非 显 式 编 程 ) 。 
pbdMPI R 程 序 必须 通过 mpiexec 运 行 来 调用 R 运 行 时 ， 为 MPI 基 础 构造 创建 并 行进 程 的 初始 组 。 


>Rmpi 和 pbdMPI 一 哪个 更 好 ? 
与 以 往 这 类 问题 相同 ， 答 案 是 : 视 情 况 而 定 。 


Rmpi 使 你 能 够 从 Rstudio 中 立即 启动 单个 节点 上 的 主 和 工作 者 集群 ， 并 在 小 集群 分 割 的 数据 上 高 效 地 并 行 运 行 R 郧 数 。 不 需要 对 Rmpi 内 部 进行 政变 ， 我 们 将 在 后 面 进 行 
阐述 ， 其 默认 设置 会 使 其 难以 利用 工作 者 进程 之 间 的 通信 。Rmpi 兼 容 R 的 核心 并 行 包 ， 可 以 用 作 makeCluster ("MPI") 的 底层 架构 。 参 见 1.2.2 节 。 


大 数据 MPI 编 程 (pbdMPI) : R 程 序 只 能 通过 外 部 MPI 运 行 时 架构 使 用 mpiexec 命 令 启 动 。 它 在 操作 并 行进 程 方面 具有 更 大 的 灵活 性 (例如 SPMD) ， 在 采用 大 规模 并 
行 性 方面 也 具有 更 大 的 灵活 性 ， 并 且 不 限制 进程 间 通 信 。pbdMPI 包 也 是 大 数据 包 的 一 部 分 ， 包 括 稠密 线性 代数 库 和 分 布 式 矩阵 类 。 


接 下 来 的 各 节 详 述 Rmpi 和 pbdMPI 支 持 的 基本 MPI 功 能 ， 给 出 参照 相应 的 MPI 3.0 标 准 的 API 调 用 一 PDF 报告 中 的 引用 页 ， 以 防 你 想 查 阅 该 调用 的 C/Fortran 语 言 变 量 
的 标准 定义 (MPI 引用 可 以 在 http://www.mpi-forum.org/docs/mpi-3.0/mpi30-report.pdf 找 到 ) 。 


正如 你 所 料 ，R 包 中 的 命名 约定 十 分 相似 。 本 质 上 ，pbdMPI 重 载 一 个 API 调 用 名 来 使 用 多 种 数据 类 型 ， 而 Rmpi 要 求 更 加 明确 并 且 提供 了 附加 的 函数 来 文 持 不 同类 型 的 


数据 。 你 也 会 友 现 Rmpi 使 用 .mpi" 作 为 标准 函数 名 称 前 缀 ， 而 pbdMPI 没 有 前 缀 。 不 乎 的 是 ， 这 意味 痢 我 们 不 能 编写 一 个 可 以 在 这 两 个 包 接口 之 间 易 于 移植 的 程序 。 我 们 
必须 为 每 个 包 编 写 独 立 的 代码 。 


2.3.1 ko] EB S 


让 我 们 直接 进入 一 个 非常 简单 的 测试 程序 ， 它 从 前 一 个 排名 的 MPI 进 程 友 送 消息 给 其 排名 的 前 导 子 。 你 将 需要 至 少 双 核 的 机 器 才能 运行 这 个 示例 。 我 们 以 Rmpi 开 始 ， 
接 下 来 是 pbdMPI 实 现 。 我 们 记得 ，Rmpi 可 以 在 一 个 交互 式 R 会 话 中 运行 ， 如 下 所 示 : 


> library (Rmpi) 
> mpi.spawn.Rslaves() # Spawn at least 2 workers 
> rmpi lastsend <- function() ( 
myrank <- mpi.comm.rank(comm-1) # which MPI rank am I? 
sender <- mpi.comm.size(comm-1)-1 # msg is sent from last 
receiver «- mpi.comm.size(comm-1)-2 # to last''s predecessor 
buf «- ""long enough"" 
if (myrank -- sender) ( 
msg «- paste(""Hi from:"",sender) 
mpi.send(msg,3,receiver,0,comm=1) 
} else if (myrank == receiver) { 
buf <- mpi.recv(buf,3,sender,mpi.any.tag(),comm-1) 
} 
return (buf) 
} 


> mpi.bcast.Rfun2slave(comm=1) # Master shares all its function 
definitions with the Workers 


> mpi.remote.exec(rmpi lastsend()) # Workers (only) execute specific 
function 


$slavel 
[1] ""long enough"" 


$slave2 

[1] ""long enough"" 
$slave3 

[1] *""H3 from: 4"* 
$slave4 


[1] ""long enough"" 


你 应 该 看 到 一 个 类 似 前 面 的 输出 。 在 我 的 系统 中 ， 有 4 个 核心 ， 因 此 ， 默 认 情 况 下 mpi.spawn.Rslaves () 会 创建 4 个 工作 者 的 一 个 集群 。Rmpi 创 建 标 识 为 “1” 的 默 
认 通 信子 ， 这 包括 所 有 的 工作 者 和 主 进程 一 这 里 主 进程 的 排名 是 0， 最 后 的 工作 者 的 排名 是 4。 可 以 从 之 前 的 代码 中 发 现 ， 使 用 mpi.comm.rank () 在 默认 通信 子 中 获取 
调用 进程 的 唯一 排名 ， 使 用 mpi.comm.size () 确定 在 默认 通信 子 中 总 共有 多 少 个 进程 ， 在 这 种 情况 下 是 整个 MPI。 我 们 还 使 用 了 特殊 的 Rmpi 函 数 
mpi.bcast.Rfun2slave () 将 lastsend () RAVE (以 及 在 主 进程 上 的 其 他 任何 用 户 定 义 函 数 ) 传递 给 所 有 的 工作 者 ， 这 样 它们 融 可 以 远程 执行 它 。 如 果 在 任何 时 候 更 
改 了 冰 数 定义 ， 都 需要 在 执行 它 之 前 ， 重 新 将 其 传送 给 工作 者 。 


观察 mpi.send 的 调用 ， 如 下 所 示 : 
mpi.send(msg, 3, receiver, 0, comm=1) 


Rmpi 包 的 mpi.send () 方法 有 4 个 强制 性 参数 ， 它 们 是 : 
. 发 送 的 R 对 象 msg。 


RAR RAMP (f 3R) 数据 类 型 的 值 [3] (Rmpi < V1 = 4 
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TAS) 。 稍 后 ， 我 们 将 看 到 如 何 发 送 和 接收 复杂 的 了 对 象 。 


- 发 送 给 [receivet 的 MPI 进 程 的 排名 。 


` 标记 发 送 的 标签 [0]。 接 收 方 可 以 选择 标签 的 值 与 其 匹配 mpi.recv () 。 标 签 只 用 于 当 不 同类 型 的 消息 或 从 给 定 的 发 送 端 接收 的 一 系列 消息 十 分 重要 需要 确定 时 。 它 往 
往 更 适用 于 非 阻 塞 通 信 的 消 歧 ， 我 们 将 在 后 面 对 它 进行 介绍 。 


可 以 选择 定义 通信 子 太 送 的 范围 。 在 本 例 中 ， 我 们 将 其 显 式 设置 为 默认 值 “1”， 只 是 为 了 更 清晰 。 


现在 ， 让 我 们 执行 mpi.recv 调 用 : 


buf <- mpi.recv(buf, 3, sender, mpi.any.tag(), comm-1) 


Rmpi 包 的 mpi.recv () 方法 也 有 4 个 强制 性 参数 : 

` 与 发 送 对 象 相同 类 型 的 R 对 象 ， 大 小 足以 容纳 发 送 对 象 [buf。 下 一 个 例子 将 进一步 说 明 这 方面 的 问题 。 

RCRA REMAP (简单) 数据 类 型 的 值 [3]， 其 中 3 表示 一 个 字符 串 。 

: 从 [sendet] 接 收 的 MPI 进 程 的 排名 。 

- 与 [mpi.any.tag () ] 发 送 相 匹 配 的 标签 。 我 们 选择 使 用 一 个 由 mpi.any.tag () 定义 的 特殊 值 ， 这 意味 着 这 个 接收 将 与 特定 发 送 端 发 送 的 任何 标签 相 匹配 。 
同样 ， 对 这 个 接收 ， 我 们 选择 将 通信 子 学 围 显 式 设置 为 其 默认 值 “1”。 

为 了 说 明 mpi.recv () 函 数 的 第 一 个 “buffer” 变 量 ， 需 要 修改 lastsend () 函数 然后 重新 运行 它 ， 如 下 所 示 : 


> rmpi lastsend <- function() ( 


receiver «- mpi.comm.size(comm-1)-2 # to last''s predecessor 
buf «- ""too short"" 


if (myrank -- sender) ( 


return (buf) 
} 
> mpi.bcast.Rfun2slave(comm=1) # Distribute updated function 


> mpi.remote.exec(rmpi lastsend()) # Workers execute function 


$slavel 
Lll "too shorr""* 
$slave2 
[il ""Eoo sfnnrpE*" 
$slave3 
[1] ""HI from. "" 
$slave4 


[1] ""too short"" 


可 以 友 现 ，Rmpi 重 用 提供 的 对 象 内 存 作 为 第 一 个 参数 来 接收 在 发 送 中 传送 的 值 ， 在 这 种 情况 下 ， 它 是 一 个 很 短 的 字符 。 然 而 ， 对 于 这 种 情况 ， 我 们 确实 知道 需要 的 接 
收 缓冲 区 大 小 ， 以 便 获 得 完整 的 消息 ， 因 此 修复 它 很 简单 。 在 下 一 章 中 ， 当 讨论 更 高 级 的 MPI API 时 ， 我 们 将 看 看 在 利用 MPI_Probe 真 正 接 收 消息 之 前 ， 如 何 查 询 要 接收 
的 消息 的 大 小 。 

现在 ， 利 用 Rmpi 的 send/recv 函 数 对 我 们 可 以 轻易 绕 过 这 个 问题 ， 这 两 个 函数 使 复杂 的 Ry 对 象 进行 通 信 ， 即 mpi.send.Robj () 和 mpi.recv.Robj () ， 如 下 所 示 : 


rmpi lastsend2 <- function() { 
myrank «- mpi.comm.rank(comm-1) 
sender «- mpi.comm.size(comm-1) - 1 
receiver <- mpi.comm.size(comm-1) - 2 
buf «- ""N/A"" 
if (myrank -- sender) ( 
msg «- paste(""Hi from:"", sender) 
mpi.send.Robj (msg, receiver, 0, comm=1) 


) else if (myrank == receiver) { 


buf <- mpi.recv.Robj (sender, mpi.any.tag(), comm-1) 


} 


return (buf) 


ERIK ERSTE MABRY, 321i T e EETERE AIL / FRIAR RAS, SIT RMAEAMpi.recv.Robj () ， 我 们 也 不 需要 设置 接收 缓冲 对 象 ， 因 为 接收 的 对 象 已 经 创 
建 了 并 直接 从 冰 数 调用 返回 。 尽 管 对 于 仅仅 是 数字 或 字符 串 的 R 数 据 mpi.send.Robj () 和 mpi.recv.Robj () 并 不 是 高 性 能 的 ， 但 它们 通常 是 易于 使 用 的 工具 ， 而 且 你 不 
太 可 能 会 出 现 程序 错误 。 


正如 前 面 所 说 的 ， 这 里 是 "lastsend "例子 的 pbdMPI 实 现 。 记 住 ，pbdMPI 必 须 通 过 命令 shell 使 用 mpiexec 才 可 以 运行 ， 例 如 ， 从 OS X 的 终端 ， 如 下 所 示 : 


# File: chapter2 pbdMPI.R 

library (pbdMPI, quietly=TRUE) 

init () 

pbdmpi lastsend <- function() { 
myrank <- comm.rank() 


sender «- comm.size() - 1 
receiver «- comm.size() - 2 
if (myrank == sender) { 


msg «- paste(""Hi from:"", sender) 
send(msg, rank.dest-receiver) 

} else if (myrank == receiver) { 
buf <- recv(rank.source=sender) 


j 


comm.print (buf, rank.print-receiver) 


j 
pbdmpi lastsend() # This is SPMD so all processes execute the same 
finalize() 


运行 这 个 命令 的 输出 将 显示 在 终端 窗口 上 ， 如 下 所 示 : 


mac$ mpiexec -np 4 Rscript chapter2 pbdMPI.R 
COMM.RANK = 2 
11] ""Hi from: j"" 


注意 ， 最 后 一 个 进程 是 在 排名 3。 在 我 们 运行 SPM D 时 ， 没 有 独立 的 主 进程 。 另 外 ，pbdMPI 包 的 send () 和 recv () 函数 对 的 标签 和 通信 子 都 有 默认 的 参数 设置 。 当 
pbdMPI 检 查 发 送 数据 的 参数 类 型 并 内 部 切换 到 使 用 最 有 效 的 MPI 调 用 时 ， 不 需要 任何 显 式 的 输入 。 我 们 也 选择 不 显 式 设置 通信 子 ， 因 此 使 用 默认 的 
MPI_COMM_WORLD 通 信子 ， 其 中 包含 所 有 由 init () 启动 并 成 功 从 其 调用 返回 的 MPI 进 程 。 

ppavpr commprint () : 在 前 面 的 pbdMPI 的 示例 中 ， 我 们 使 用 comm.ptint () 函数 来 显示 接收 端 接收 的 消息 字符 串 ， 只 将 rank.print 参 数 设置 为 接收 端的 排名 数 。 重 
要 的 是 要 认识 到 ， 在 特定 通信 子 中 的 所 有 MPI 进 程 都 必须 调用 comm.ptint () ， 即 使 它们 不 输出 任何 东西 ; 和 否则， 将 会 导致 死 锁 (comm.print () 会 内 部 调用 MPI Barrier, 
参阅 2.3.2 节 ) 。 很 容易 忘记 这 一 点 ， 将 comm.print () 放 在 条 件 语句 中 ， 然 后 怀疑 为 什么 程序 会 永远 挂 起 。 


如 果 你 确实 想 要 在 相同 的 通信 子 中 的 所 有 MPI 进 程 使 用 comm.ptint () 输出 一 些 东 西 ， 只 需 将 all.rank 设 置 为 TURE 并 调用 它 ; 如 果 也 设置 了 tank.ptint， 这 将 履 盖 它 。 
和 
finalize () 肖 数 中 调用 MPI-Finalize。 然 而 ， 由 于 Rmpi 用 于 在 交互 式 R 会 话 中 运行 ， 所 以 当 加 载 了 库 并 提供 不 同 的 MPI 终 止 函数 来 处 理 3 种 特殊 情况 时 它 运 行 MPI_Init: 
Rmpi: : mpi-finalize () : 它 完全 终止 MPI。Rmpi 在 R 会 话 中 保持 可 用 ， 所 以 你 可 以 决定 启动 更 多 的 MPI 工 作者 然后 再 次 并 行 运行 。 
Rmpi: : mpiexit () : 它 执行 mpi.finalize () ， 但 也 分 离 Rmpi 库 ， 因 此 你 不 能 再 次 使 用 MPI。 有 继续 运 行 ， 你 可 以 决定 在 会 话 中 重新 加 载 Rmpi 库 并 继续 。 
人 


我 们 使 用 的 MPI 点 对 点 发 送 和 接收 程序 称 为 阻塞 ， 这 表示 直到 发 送 的 数据 传送 到 预期 的 接收 进程 时 发 送 操作 程序 才 可 以 完成 ， 意 味 着 进程 执行 了 一 个 匹配 的 接收 操 
作 。 从 上 友 送 端的 角度 来 看 ， 一 旦 友人 送 函 数 调用 返回 ， 友 人 送 闯 修改 刚才 友 送 的 对 象 是 安全 的 。 如 果 没 有 给 定 友 送 的 匹配 接收 操作 ， 那 么 友 送 器 可 能 会 阻塞 并 且 不 会 从 友和 送 函 
数 调用 中 返回 。 因 此 ， 友 人 送 进程 将 永远 挂 起 。 这 是 一 个 称 为 死 锁 的 情况 ， 将 人 在 第 6 章 中 详细 讨论 。 现 在 ， 它 足以 让 我 们 了 解 ， 在 程序 中 所 有 的 MPI 并 行进 程 每 次 友 送 信息 ， 


都 必须 执行 匹配 接收 。 


下 表 总 结 了 点 对 点 阻塞 通信 。 
阻塞 通信 


MPI Send (MPI Ref: p.24 


MPT Send 是 阻塞 操作 。 必 须 有 一 个 匹配 的 MEI_Recr 或 MEI Irecv; 


MPI V3.0 API 调用 


send 1 
buf; FARES, eae Robject, 
连续 内 存 组 冲 区 中 第 一 个 对 要 
的 地 址 指针 

count: itjé € eig) IS comm=0 

ib ES eh roe p e Sa ) 

datatype: ix Re EE TS IA 返回 ; NULL 
小 推断 出 的 对 象 的 定义 类 型 的 
Bre 

dest; 这 荐 通信 了 寺中 发 送 目 标 
ERE) AE 

tag: 这 荐 一 个 非 叶 整数 ， 只 对 
调用 者 有 影响 

comm: 这 是 特 被 传输 的 信息 所 
在 的 通信 子 ) 


rank.desrt-l, 
tag-0, 


pbdMPI::send [bil s HB 


it SSPMD.CTI 中 定义 ， 
里 进行 更 疏 


可 以 在 那 


Pt s .. 
pbdMPI::sendH Rmpi::mpi.send.Robj BE ARHAN. EARTHS s Bg CER 
Rmpi::mpi.send 见 用 来 发 送 integer/int, numeric/double W character/char 类 型 的 向量 ， 


MPT Recv (MPI Ref p28 


recy { 
x.butfer-NULL, 
rank.srce-ü, 


buf. 在 接收 进程 中 ,这 基 指 同 
连续 内 存 强 溃 民 中 第 一 个 对 彰 
的 地 址 指针 

count: HERIK AFE 
p eh per Se e det status=0 

datatype: MERRIE me m ) 

小 推断 出 的 对 单 的 定义 类 到 的 i [=]; NULL 

Pr a= bdMPI::recv HM) E il Wi 
dest: 这 古 通 信子 中 接收 目标 | BE SSEMD.CI Pew mM, #7 
进程 的 排名 

tag: 这 是 一 个 非 仙 整数， 只 对 
HA E 

comm: 这 基 和 将 被 传输 的 信息 所 
在 的 通信 了 于 

status: iX E — 个 MFI 
Status HE., OT LIER PES 
信息 (如 srce 和 tag F) A 
We 


tag=0, 


caomm=, 


以 在 那里 进行 更 改 。 


Rmpi 等 价 调 用 


mpi.sendq( 


E, type, dest, tag, 
comm-l 
i 


iel: NULL 

mpi .send.Robj [ 
Robject, dest, tag, 
comm-l 

) 

REl: NULL 
type HA AEH: 

e 于 一 整 数 

e 1 一 数字 

e 3 一 字符 


li, fT MPI Send 的 进程 将 


nmpi.recvi 
x, type, srce, 
comm-l, 


tag, 


Status=0 

| 

返回 : NULL 
mpi.recv.RoblI! 
Srce, tag, 
comm=l1, status=) 
) 

返回 : NULL 

type HANE: 
e 1 二 整数 

è =F 

e 3 二 字符 


阻塞 通信 


( SE ) 


MPI Recvw #— THERE. 4H — TILA) MPI Send ux MPI Isend; Ml, PA MPI Recv 的 进 


BB PE. 


A] LAS} pbaMPI::recv Jrihfibpt—- Ti REZ REDRE, ELEM Se. Ts 


是 退回 接收 到 的 对 象 。 


Rmpi::moi.recr 逢 要 怀 提 供 一 个 正确 类 型 的 六 是 交大 小 的 及 回 量 来 匹配 发 送 的 束 据 。 一 旦 匹配 完成 ， 
调用 提供 的 辐 基 将 被 接收 到 的 数据 填充 ， 
使 一 个 通配符 接收 并且 捕 号 从 相同 通信 子 中 故 迁 到 接收 进程 的 尾 意 标签 值 及 对 草 ， 利 用 如 下 及 代码 : 


pbdMPI::recví(rank.srce-anysource(), anytag()) 


Rmpi::mpi.recv.Robj (mpi.any.source(t), 


mpi .any.tag{)) 


然后 你 就 可 以 查询 用 于 接收 (点 认 =0) 的 status X, RM eee: 
st «- DDIMPI: :get.sourcetag (status=0) 
st «- Rmpi: :mpi.get.sourcetag(status=-0) 


# Sst[1]=sender''s rank, 


MPI Sendrecv (MPI Ref: p.79 
3endbuf, sendcount, 
sendtype, 

dest, sendtag, 
recvbuf, recvcount, 
recwvtype, 

srce, recvtag, 

comm, Status 

i 

MPI Sendrecy replace |{ 
MPI Ref: p.80 

buf, count, datatype, 
dest, sendtag, 

srce; recvtag, 

comm, status 

i 


该 表 前 面 的 MEI Send/MPI Recv 


邹 分 有 这 些 孙 数 使 用 的 参数 的 解释 


st [2]=tag value sent 


3endrecv | 
Robject, 
x.buffer-NULL, 
rank.dest-see 
below, 
send.tag=0, 
rank.srce-see 
below, 
recv.tag-üü, 
comm=0, 
status=0 


i fal; Robject 
sendrecy. replace | 
Robject, 
rank.dest=see 
below, 


send.tag=(, 
rank.srce-see 
below, 
recv.tag-ü, 
comm-ü, 
Status=0 

返回 : Rebject 


mpi.sendrecv( 
senddata, sendtype, 
dest, sendtag, 
recvdata, recvtype, 
grce, recvtag, 
comm-l, 

status=0 

REl; recvdata 
mnpi.sendrecv. 
replace |i 

x, type, dest, 
sendtag, 

srce, recvtag, 
comm=1, 

status=( 

ikl; x 


不 出 所 料 ，HEI_senarecv 将 一 个 调用 中 的 发 送 和 接收 进程 结合 在 一 起 。 在 控制 返回 到 程序 且 可 以 执行 下 
一 条 及 域名 前 , 它 相 当 于 执行 独立 的 发 送 和 接收 ,使 每 一 个 方面 都 有 不 同 的 进程 和 不 同类 型 的 数据 ,除了 发 
送 和 接收 都 必须 完成 外 。 因 此 ，MPI Sendrecv 荐 阻塞 操作 。 必 天 有 苞 配 MPI Sendrecv 或 者 一 组 由 其 他 


进程 调用 的 MPI Send/MPI Isend 和 MFI Recv/MPI Irecv. 


阻塞 通信 

pbdMPI 库 对 rank.dest Ml rank.srce 进行 默认 设置 ， 使 每 个 进程 发 送 到 其 直接 后 继 子 并 从 其 直接 前 
学 于 接收 ,使 通 信子 中 所 有 进程 的 单 步 前 向 链 交 挽 可 以 很 简单 地 实现 .使 用 MFI ssndrecr 的 一 个 相关 代 
码 示例 ， 请 参阅 第 of, 


N onc EUER UND RR EU WM IM ERE E EUM EE 
示例 的 相关 帮助 页 面 。 用 这 种 方式 ， 你 也 可 以 得 到 更 多 的 简单 MPI 示 例 。 
MPI 的 内 部 通信 子 
我 们 已 经 谈 到 了 匹配 的 发 送 和 接收 的 概念 。 在 通信 中 ， 有 以 下 4 个 我 们 可 以 选择 的 关键 特性 : 
. 通信 子 : 通信 子 用 来 传递 消息 。 如 果 有 帮助 ， 你 可 以 把 通信 子 类 比 成 无 线 频道 。 如 果 你 想 听 到 广播 给 你 的 特定 消息 (和 大 多 数 的 类 比 一 样 ， 我 们 只 能 把 它 想 成 这 
样 ……) ， 必 须 调 整 到 正确 的 频道 。 
. 来 源 : 这 是 发 送 消息 的 进程 的 排名 (也 就 是 ， 谁 在 进行 “传输 ”) 。 
. 标签 : 这 是 消息 的 标签 ， 对 发 送 消息 的 程序 定义 解释 。 
: 目的 地 : 发 送 端 也 要 选择 消息 的 接收 端的 排名 (也 就 是 ， 谁 在 “接收 ”) 。 


我 们 使 用 的 通信 子 的 类 型 是 内 部 通信 子 ， 意 味 着 只 有 这 个 通信 子 的 成 员 (也 就 是 ， 在 其 中 有 排名 ) 才能 进行 相互 通信 。 在 特定 的 内 部 通信 子 中 ， 所 有 的 通信 都 是 私有 
J. MPI 标 准 提供 了 丰富 的 接口 以 支持 外 来 过 程 组 层次 结构 ， 使 组 合 进程 成 员 通 信子 能 够 重 硬 、 交 义 和 生 成 ， 使 不 同 组 中 的 进程 之 间 可 以 通过 内 部 通信 子 的 结构 进行 通 
然而 ，Rmpi 和 pbdMPI 都 处 理 更 简单 的 用 例 ， 因 此 这 两 个 包 都 限制 API 函 数 的 MPIL_Com 族 的 使 用 ， 本 质 上 是 限制 用 MPI_Comm _dup 对 现 有 通信 子 进行 复制 。 


pmm y 


Il 


£T MPIBS- T AERERRESK, CEARTA ES caSfa-f BytsrUos ART HEBES (这 种 情况 的 一 种 类 比 是 ， 两 个 不 同 的 广播 电台 不 允许 在 同一 频道 
播 出 ) 。 在 盒 外 ，Rmpi 不 可 能 创建 只 有 工作 者 的 通信 子 ， 这 会 限制 或 至 少 使 我 们 的 一 些 编程 选择 复杂 化 (根据 下 文 的 中 断 盒 ) 。 但 是 ， 它 是 有 益 的 ， 可 以 展示 我 们 怎样 才 
能 在 这 方面 使 Rmpi 更 加 灵活 ， 所 以 这 就 是 我 们 接 下 来 将 探讨 的 。 

Rmpi workeraemon.R 脚 本 

我 们 将 通过 创建 一 个 新 的 后 台 Rmpi 工 作者 守护 进程 脚本 来 实现 Rmpi 的 MPI Comm _ dup 操作 。 当 Rmpi 派 生 一 组 新 的 工作 者 进程 和 时， 默认 情况 下 ， 它 使 用 一 个 特殊 进 
程 来 启动 称 为 slavedaemon.R 的 脚本 。 我 们 将 对 此 进行 复制 并 编辑 它 以 便 引 入 一 个 只 在 工作 者 进程 集合 中 的 重复 通信 子 ， 排 除 主 进程 的 重复 通信 子 。 这 将 使 我 们 能 够 安全 
地 将 我 们 自己 的 工作 者 通信 从 Rmpi 在 主 进程 与 工作 者 进程 间 的 内 部 操作 分 离 出 来 。 它 将 为 我 们 提供 一 个 通信 子 ， 该 通信 子 可 以 用 来 只 在 派生 的 工作 者 进程 间 进 行 特殊 的 


MPI 集 体 通信 API 调 用 。 


首先 ， 确 定 你 的 Rmpi 安 装 的 位 置 。 从 一 个 R 会 话 中 ， 键 入: 


> .libPaths() 


[1] ""/Library/Frameworks/R.framework/Versions/3.2/Resources/library"" 


你 应 该 看 到 一 个 类 似 先前 输出 的 输出 ， 特 别 是 ， 如 果 你 在 一 台 Mac 设 备 上 运行 。 接 下 来 ， 打 开 终 端 窗口 并 在 控制 台 输 入 : 


mac$ cd /Library/Frameworks/R.framework/Versions/3.2/Resources/library/ 
Rmpi 


mac$ cp slavedaemon.R workerdaemon.R 


然后 ， 在 新 的 workerdaemon.R 文 件 中 打开 一 个 文本 编辑 器 ， 修 改 它 ， 添 加 一 些 额外 的 行 ， 如 在 下 面 代 码 片段 中 突出 显示 的 部 分 。 你 的 文件 可 能 看 起 来 有 一 些 不 同 ， 
这 取决 于 Rmpi 的 版 本 : 


#File: workerdaemon.R 
# Copied from slavedaemon.R and modified to create workers'' Wcomm 
communicator 
if (!library(Rmpi,logical.return = TRUE) ) { 
warning(""Rmpi cannot be loaded"") 
q(save = ""no"") 


j 


options(error-quote(assign("".mpi.err"", TRUE, envir = .GlobalEnv))) 
COMM <= 4 

.intercomm «- 2 

Wcomm <- 3 ### 1 


invisible (mpi.comm.dup(0,Wcomm)) ### 2 
invisible(mpi.comm.set.errhandler(Wcomm)) ### 3 
print (paste(""Worker rank:"",mpi.comm.rank (comm=Wcomm) ,""of"",mpi. 
comm.size(comm-Wcomm),""on Wcomm[=3]"")) ### 4 
invisible (mpi.comm.get.parent (.intercomm) ) 
invisible (mpi.intercomm.merge(.intercomm,1, .comm) ) 
invisible (mpi.comm.set.errhandler (.comm) ) 
mpi.hostinfo (.comm) 
invisible (mpi.comm.disconnect (.intercomm) ) 
.nonblock <- as.logical (mpi.bcast (integer(1),type=1,rank=0,comm=. 
comm) ) 
.Sleep <- mpi.bcast (double (1) ,type=2, rank=0, comm=.comm) 
repeat 
try (eval (mpi.bcast.cmd(rank=0,comm=.comm, nonblock-.nonblock, 
sleep=.sleep) ,envir=.GlobalEnv) , TRUE) 
print (""Done"") 
invisible(mpi.comm.disconnect(Wcomm)) ### 5 
invisible (mpi.comm.disconnect (.comm) ) 
invisible (mpi.comm.set.errhandler (0) ) 
mpi.quit () 


你 可 以 在 前 面 的 脚本 中 发 现 ， 在 [###2]， 所 有 的 工作 者 (而 不 是 主 进程 ) 都 复制 了 特殊 的 通信 子 值 0。 这 是 由 Rmpi: : mpi.comm.dup () 造成 的 ， 代 表 了 
MPI COMM_WORLD。 当 MPI 进 程 由 父 进程 派生 时 ，MPIL_COMM_WORLD5 引 用 派生 的 子 进 程 组 但 不 包括 主 进程 。 我 们 创建 了 一 个 MPI COMM _WORLD 的 重复 通信 
子 ， 将 其 连接 到 内 部 Rmpi 引 用 句柄 号 3 并 将 句柄 指标 记录 到 全 局 变量 Wcomm 中 ， 使 得 在 我 们 想 调用 的 任何 Rmpi 函 数 中 都 可 以 使 用 广播 命令 进行 明确 的 引用 ， 其 中 每 个 工 
作者 在 它们 的 近 永 久 重 复 循 环 中 从 主 进程 中 接收 消息 。 注 意 我 们 如 何 采 用 代码 为 新 工作 者 通信 子 [###3] 设 置 错误 处 理 程序 ， 并 生成 一 些 附加 调试 输出 到 工作 者 的 日 志文 件 
中 [###4]。 也 要 注意 ， 为 了 整洁 和 正确 释放 资源 ， 我 们 在 工作 者 进程 退出 博 ##5] 前 显 式 地 断 开 Wcomm。 当 调用 mpi.close.Rslaves () 时 从 主 进程 触发 退出 。 


将 前 面 的 工作 全 部 完成 后 ， 我 们 现在 可 以 回 到 我 们 的 R 会 话 ， 调 用 Rmpi: : mpi.spawn.Rslaves () 来 使 用 我 们 修改 的 启动 脚本 ， 如 下 所 示 : 


> mpi.spawn.Rslaves (Rscript-system.file(""workerdaemon.R"", 
package= n" Rmpi nu ) ) 


4 slaves are spawned successfully. 0 failed. 
master (rank 0, comm 1) of size 5 is running on: Simons-Mac-mini 
slavel (rank 1, comm 1) of size 5 is running on: Simons-Mac-mini 


slave2 (rank 2, comm 1) of size 5 is running on: Simons-Mac-mini 


slave3 (rank 3, comm 1) of size 5 is running on: Simons-Mac-mini 
slave4 (rank 4, comm 1) of size 5 is running on: Simons-Mac-mini 
> tailslave.log(nlines=2) 
==> Simons-Mac-mini.2885741.32231.log <== 
[1] ""Worker rank: 0 of 4 on Wcomm[=3]"" 

Host: Simons-Mac-mini Rank(ID): 1 of Size: 5 on comm 1 
==> Simons-Mac-mini.2885741.32232.log <== 
[1] ""Worker rank: 1 of 4 on Wcomm[z3]"" 

Host: Simons-Mac-mini Rank(ID): 2 of Size: 5 on comm 1 
==> Simons-Mac-mini.2885741.32234.10g <== 
[1] ""Worker rank: 2 of 4 on Wcomm[=3]"" 

Host: Simons-Mac-mini Rank(ID): 3 of Size: 5 on comm 1 
==> Simons-Mac-mini.2885741.32237.10g <== 
[1] ""Worker rank: 3 of 4 on Wcomm[=3]"" 


Host: Simons-Mac-mini Rank(ID): 4 of Size: 5 on comm 1 


注意 ， 我 们 可 以 查看 由 工作 者 使 用 Rmpi: : tailslavelog () 在 它们 各 自 的 日 志文 件 中 创建 的 最 新 条 目 。 作 为 测试 的 最 后 一 步 ， 让 我 们 从 主 进程 调用 一 个 只 有 工作 者 
的 集体 操作 作为 广播 ， 然 后 通过 以 下 代码 彻底 终止 工作 者 进程 : 


> mpi.remote.exec (mpi.barrier (comm=Wcomm) ) 
X1 X2 X3 X4 

A 4. & d. À 

» mpi.close.Rslaves() 

E 1 


ME! 这 里 ,我 们 执行 了 所 有 集体 操作 的 最 简单 调用 MPI_Barrier， 它 导致 在 Wcomm 通 信子 中 的 所 有 进程 ( 即 ， 所 有 工作 者 ) 有 效 地 同步 到 程序 执行 的 相同 点 。 在 本 章 
的 后 面 ， 我 们 将 探索 MPI 集 体 通信 的 全 部 设置 。 


S ampi: mpi.bcast.cmd () Smpi.remote.exec () 
正如 我 们 之 前 讨论 的 ，Rmpi 利 用 主 /工作 者 集群 。 它 提供 两 种 可 选 的 在 工作 者 中 并 行 执行 特定 函数 的 方式 ， 如 下 所 示 。 


: mpi.bcast.cmd (cmd=NULL, http:/ /www.hzcoutse.com/resoutce/readBook? 
path= /openresources/teach ebook/uncompressed/17225/OEBPS/Text/..., rank-0, comm=1, nonblock=FALSE, sleep=0.1) : 这 个 Rmpi 调 用 通常 只 用 于 当 所 有 工作 者 都 在 休 
RÝ (或 将 ) 等 待 它们 的 下 一 个 需要 执行 的 《cmd) 及 函数 时 ， 它 由 主 进程 触发 。 使 用 Rmpi 的 默认 设置 ， 每 个 工作 者 用 nonblock=TURBE 时 ， 反 复 调用 它 并 且 通 过 0.1 秒 的 短 
期 闲置 休眠 来 降低 CPU 开销 。 然 而 ，mpi.bcastcmd () 并 不 包括 工作 者 返回 主 进程 的 结果 。 为 此 ， 需 要 mpi.remote.exec () o 


: mpi.remote.exec (cmd, http://www.hzcourse.com/resource/readBook? 
path— /openresources/teach. ebook/uncomptessed/17225/OEBPS/Text/..., simplify TRUE, comm-1, ret- TRUE) : 这 个 Rmpi 调 用 将 收集 计算 函数 (cmd) 的 结果 (如果 
tet- TURE) 作为 工作 者 的 返回 值 或 者 作为 一 个 列表 (simplify=FALSE) 或 者 ， 如 果 可 能 ， 作 为 一 个 RR 数 据 框 (simplify=TURE) o 


对 于 这 些 Rmpi 调 用 ， 计 算 函 数 中 使 用 的 主 进程 变量 的 当前 设置 可 以 作为 可 选 参数 (http://www-hzcourse.com/resource/readBook? 
path— /openresources/teach. ebook/uncompressed/17225/OEBPS/Text/...) 直接 传送 给 工作 者 进程 。 例 如 ， 为 了 在 工作 者 中 并 行 计算 tn (x 二 a, y=b) ， 需 要 调用 


mpi.bcast.cmd (cmd=fn, x=a, y=b) 或 mpi.remote.exec (fn, x=a, y=b) 。 


还 应 该 注意 ， 在 这 些 调用 中 ， 主 进程 本 身 都 不 执行 并 行 济 数 ， 事 实 上 ,使 用 mpi.remote.exec (cmd, ret- TRUE) 它 并 不 会 这 样 做 ， 它 必须 等 待 直到 它 已 经 收集 每 个 工 
作者 的 结果 。 如 果 你 确实 需要 这 样 做 ， 那 么 通常 的 模式 是 在 主 进程 调用 mpi.bcast.cmd () 后 它 立即 执行 并 。 特 别 注意 这 个 需求 ， 并 行 函 数 内 部 包含 对 默认 通信 子 中 
的 MPI 集 体 通信 的 调用 ， 因 为 主 进程 将 必须 参与 以 防 死 锁 现 象 的 发 生 。 


2.3.2 ”点 对 点 非 阻塞 通信 


在 上 一 节 中 ,学习 了 MPI_Send 和 MPI_Recv。 这 些 都 是 阻塞 通信 并 给 我 们 市 来 了 几 个 问题 。 首 先 ， 如 果 我 们 没有 给 定 发 送 的 匹配 接收 ， 那 么 我 们 的 程序 将 会 挂 起 。 它 


将 处 于 死 锁 的 状态 中 〈 关 于 死 锁 问题 的 讨论 ， 参 阅 第 6 章 ) 。 其 次 ， 在 一 个 数据 传输 过 程 中 涉及 的 这 两 个 进程 必须 彼此 等 待 做 好 准备 以 便 开始 传输 。 如 果 进 程 并 不 是 密切 
同步 的 ， 这 可 能 会 非常 低 效 。 例 如 ， 如 果 它 们 有 不 均衡 的 工作 负载 或 执行 不 同类 型 的 计算 。 值 得 庆 科 的 是 ，MPI 的 非 阻塞 通信 可 以 帮助 缓解 这 些 问 题 ， 这 融 是 我 们 接 下 来 
将 进行 探讨 的 内 容 。 


MPI_lsend 和 MPI_Irecv 是 非 阻塞 通信 的 友 送 和 接收 变 体 。 前 缀 "| 表示 立即 ， 意 思 是 一 旦 在 MPI 通 信子 系统 中 局 动 了 发 送 或 接收 ， 控 制 的 程序 流 立 即 返 回 到 调用 进 
程 。 然 而 ， 重 要 的 是 了 解 ， 即 使 返回 了 MPI_lsend 或 MPI_lrecv， 但 这 并 不 意味 着 数据 已 传输 。 我 们 需要 执行 单独 的 MPI APAA, MPI Wait (或 其 变 体 之 一 ) ， 以 确定 
特定 的 非 阻塞 发 送 或 接收 何 时 完成 。 直 到 确定 非 阻塞 友 送 已 经 完成 ， 才 可 以 对 友 送 的 对 象 进行 修改 。 它 本 质 上 是 禁止 的 。 同 样 ， 直 到 非 阻塞 接收 已 经 完成 ， 才 可 以 读 取 由 
匹配 发 送 修改 的 对 象 的 状态 。 注 意 ， 一 个 非 阻塞 接收 可 以 与 一 个 阻塞 及 送 相 匹 配 ， 同 样 ， 一 个 阻塞 接收 可 以 与 一 个 非 阻塞 友 送 相 匹 配 。 


下 面 的 代码 片段 表示 Rmpi (rmpi vectorsum) 和 pbdMPI (pbdMPI vector-Sum) 的 非 阻塞 通信 子 中 的 两 个 进程 的 基本 模式 。 该 示例 计算 已 排名 的 前 导 子 MPI 进 
程 接 收 的 数据 与 本 地 数据 的 组 合 矢 量 和 。 要 注意 的 关键 是 ， 我 们 将 给 我 们 局 动 的 每 个 非 阻塞 友 送 和 接收 分 配 一 个 唯一 的 请 求 编号 ， 这 样 我 们 就 有 了 一 种 查阅 它 的 方式 ， 以 
便 在 完成 后 可 以 检查 它 : 


# Run these code snippets with at least two MPI processes 
# For Rmpi you must use the workers-only communicator: Wcomm 
rmpi vectorSum <- function(com) { 

np <- comm.size (comm=com) 

myrank <- comm.rank (com) 


succ <- (myrank+1) $$ np 
pred <- (myrank-1) $$ np 


dataOut «- as.integer(1:10 + (myrank * 10)) 

dataIn «- vector(mode-""integer"", length=10) 
mpi.isend(dataOut, 1, succ, 0, comm-com, request-1) 
mpi.irecv(dataIn, 1, pred, 0, comm-com, request-2) 
mpi.wait(2, status-2) # wait on receive 

dataSum «- dataOut 4 dataIn 

mpi.wait(1, status-1) # wait on send 

return (dataSum) 


) 


pbdmpi vectorSum «- function(com) { 
np <- comm.size(comm-com) 
myrank «- comm.rank (com) 
succ «- (myrank+1) 
pred «- (myrank-1) 
dataOut «- as.integer(1:10 « (myrank * 10)) 
dataIn <- vector(mode-""integer"", length-10) 
isend(dataOut, rank.dest-succ, comm-com, request-1) 
irecv(x.buffer-dataIn, rank.source-pred ,comm-com, request-2) 
wait(2, status-2) # wait on receive 
dataSum <- dataOut + dataIn 
wait(1, status=1) # wait on send 
return (dataSum) 


现在 ,你 有 了 所 有 知识 ， 可 以 将 前 面 的 销 数 嵌入 所 需 的 代码 结构 中 使 它们 运行 并 显示 输出 。 完 整 的 工作 代码 示例 可 在 本 书 的 网 站 上 找到 。 


在 下 面 的 参照 表 中 ， 详 细 曾 述 了 所 有 的 非 阻塞 通信 以 及 附加 的 MPI_Wait 变 体 。 


非 阻 塞 通信 


MPI API Wal FH 


MPI Isend (MPI Ref: p.49 


@ buf: 这 是 指向 发 送 端 本 地 连续 内 存 


缓冲 区 中 
© count: 


Ey ee AY 


€ datatype: 


IB 出 的 对 


® dest: 这 是 通信 子 中 发 送 目标 进程 


的 排名 
6 tag: 这 


A REIR] 


Low 
O6 comm: 1X 


通信 子 


6 request: 


关 的 通信 


第 一 个 对 象 的 地 址 指针 

这 是 要 发 送 的 内 存 缓 冲 区 中 
这 是 根据 对 象 的 大 小 推 
象 的 定义 类 型 的 枚 举 


是 一 个 非 负 整数 ， 只 对 调用 


是 将 被 传输 的 信息 所 在 的 


这 是 一 个 与 立即 发 送 有 
请 求 的 句柄) 


pbdMPI 等 价 调用 


isendi 
Rob ject, 
rank.dest—l, 
tag-0, 
comm, 
request=0 
) 
iel: NULL 
PbdMFI: :isend 的 默认 参 
数值 是 在 ssFMp .cm 中 定义 的 ， 
并 可 以 在 那里 进行 更 改 。 


Rmpi 等 价 调用 


mpi.isend( 


x. type, dest, 
tag, 

comm-1, 
request-ü 


) 
返回 : NULL 
mpi.isend.Rob]( 
Robject, dest, 
tag, 
comm-1, 
request-ü 
) 
j& [n]: NULL 
type 的 有 效 值 ; 

e 1 一 整数 

e 2 = 数字 

e 3 三 字符 


MPI Isend 是 一 个 非 阻 塞 发 送 操作 ， 它 立即 返回 给 调用 者 。 它 需要 一 个 匹配 的 阻塞 MEI_Recv 或 非 阻塞 
MPI _Irecr 操 作 。 通 过 在 与 发 送 相 关 的 请 求 句 柄 上 调用 MEI wait 或 MEI Test 来 确定 MPI Isend 操作 


EEEN 


. 只 有 在 了 解 了 非 阻 塞 发 送 已 经 完成 时 ， 修 改 传 输 对 象 的 状态 才 是 安全 的 。 


参考 前 面 表 中 所 述 的 MPI send. WF pbdMFrz 和 Rmpi, 它们 的 Isend 函数 相当 于 与 非 阻塞 通信 唯一 相 
关 的 整 型 请 求 句 柄 的 和 的 阻塞 变 体 


MPI Irecv (MPI Ref p.51 


© buf: 这 
缓冲 区 中 
© count: 


的 数量 


6 datatype: 


断 出 的 对 


是 指向 接收 端 本 地 连续 内 存 


第 一 个 对 象 的 地 址 指针 


这 是 在 内 存 绥 冲 区 接收 对 象 


这 是 根据 对 象 的 大 小 推 
象 的 定义 类 型 的 枚 举 


e dest: 这 是 通信 子 中 接收 到 的 源 进 


程 的 等 级 


irecy | 
x.buffer-NULL, 
rank.srce-Ü, 
tag-0, 


comm-0ü, 


request-üÜ 
) 
[A]; Robject 


mpi.irecy | 
x, type, sree, 
tag, 

comm-1, 
request=0 

) 

jx [n]: NULL 


(SE) 
非 阻塞 通信 


e tag: 这 是 一 个 非 负 整数 ， 只 对 调用 
者 有 影响 

e comm; 这 是 被 传输 信息 所 在 的 通信 
Ë 

ereguest ; 这 是 一 个 与 立即 接收 有 
关 的 通信 请 求 处 理 ) 


MPI Irecv 是 一 个 非 胃 塞 接收 操作 ， 它 立即 返回 和 调用 者 。 瑟 泪 要 一 个 匹配 的 阻塞 MEI Send mkdE BH 3E 
MPI Isend 拱 作 。 通 过 在 与 发 送 相关 的 请 求人 外 理 上 调用 MPI Wait 或 MPI Test 来 确定 MPI Irecv 操作 
REE. DAES TERESA, RAMS MRS Ree. 

aj bP PEAY MPI Recv. WF pbdMPI 和 Rmpi， 它 们 的 Irecv MEAS T 51EBH XE 8 (AX 
的 整 型 请 求 处 理 的 阻塞 变 体 。 注 意 ，Rmpi FMA LRS mpi.irecv.Robj() rh mpi.isend.Robj (} 


DbdMPI::recv IRAS 
值 是 在 $35PMD.CT 中 定义 的 ， 
并 可 以 在 其 中 进行 更 改 


方法 。 


MPT Wait (MPI Ref p.53 
€ request; 这 其 等 竺 完成 的 Isend; 
Irecv fn n 
€ status; 这 是 关于 完成 通信 的 信息 ) 
MPI Waitall (MPI Ref p.59 
è count: 这 是 等 待 的 请 求 数量 
€ requests: 这 基 等 行 完 成 的 Isend/ 
IFrecy 通 信 的 句柄 的 数组 
€ statuses: 这 其 每 个 对 应 请 求 完成 
相关 的 信息 1】 
MPI Waitany (MPI Ref p.57 
€ count: 这 是 等 符 的 请 求 数 量 
€ requests ; 这 基 等 行 完 成 count 个 
Isend/Irecv 通信 和 的 句柄 的 数组 
€ index; 这 大 已 经 完成 请 求 中 的 请 
è status; 已 党 成 通信 的 信息 ) 
MPI Waitsome (MPI Ref: p.60 
€ count: 这 是 等 得 的 请 求 数 基 
€ requests: 这 是 等 竺 完成 count 个 
Isend/Irecv 通信 的 句柄 的 数组 
这 是 已 完成 的 请 


è countComplete : 


€ requestsComplete: 这 是 已 经 完 
E OY) TAS a) A n] Si 


€ statuses: 这 征 每 个 对 应 请 求 完 成 
的 相交 信息) 


Walt. 
request=i, 
Sstatus=0 

i 

iR El: NULL 
waitall{count) 
返回 ; NULL 
Waltany 1 

count, 

status=0 

j 

if [=]; NULL 
Waltsome (count) 
返回 : 
list(countComplete, 
indices [count 


Complete] } 


mpi.waiti 
requesrt-ü, 

status-iü 

; 

REl: NULL 
mpi.waitalli(count) 
返回 : NULL 
mpi.waitany( 

count, 

Status=0 

j 

返回 ; NULL 
fipl.waltsome (count } 
mpi .waitsome {count} 
iE [n] : 


list(countComplete, 


indices [countComplete] ) 


(S) 
非 阻 塞 通信 

MPI Wait 有 几 个 特点 。 基 本 的 mpi .wait() 晴 数 使 你 等 待 一 个 特定 的 非 阻 塞 通信 请 求 ， 并 用 已 完成 通信 
(source 和 tag) 的 信息 可 选择 地 设置 提供 的 状态 句柄 . 这 些 信 息 可 以 通过 随后 芒 问 MPI Probe 得 到 。 

你 可 以 自由 创建 你 希望 的 许 才 未 完成 的 非 阻塞 通信 (当然 需要 在 资源 限制 内 )， 那 么 你 的 代码 可 以 选择 等 
待 一 个 或 多 个 未 完成 的 通信 完成 。 

Rmpi 和 pbdMPI 通 过 保持 它们 自己 的 每 个 MPI 进 程 内 部 的 MPT_Reduest 和 MPI Status 对 象 的 数组 
来 简化 wait 的 使 用 , (在 撰写 本 书 时 ) 这 是 编译 时 间 限制 ， 对 Rmpi 而 言 ， 是 每 个 2000 ; 对 pramer 而 言 ， 
分 别 是 10 000 和 5000。 注 意 ， 当 使 用 批量 wait PBL, count 参数 有 效 地 确定 请 求 句柄 的 范围 是 0 到 
zount-1。 记 住 这 一 点 ， 并 假设 你 在 自己 的 代码 中 增 基 地 分 配 请 求 句柄 数字 ， 将 执行 集体 wait 函数 ， 如 

mpi.waitany () 函数 将 等 待 第 一 个 当前 需要 完成 的 未 完成 非 阻塞 sends /recvs 提供 的 count 参数 并 设 
置 提供 的 status 参数 使 能 够 检查 已 完成 通信 的 相关 信息 (使 用 MPI_Probe)。 

The mpi.waitsome() 因数 将 等 待 未 完成 通信 提供 的 count 和 参数， 返回 请 求 数量 的 列表 和 已 完成 通信 的 
请 求 句柄 的 向 量 。 

The mpi.waitall() MA H EFF RINAS ERRIA count 参数 完成 。 


2.3.3 ”集体 通信 


我 们 已 经 遇 到 了 最 简单 的 MPI 集 体 通信 调用 ， 即 MPIL_Barrier。 余 下 的 MPI 集 体 通信 在 图 2-2 中 进行 了 解释 ， 它 介绍 了 一 个 有 3 个 进程 的 通信 子 一 也 残 是 ， 友 送 数据 对 
应 友 送 进程 排名 、 接 收 数据 对 应 接收 进程 排名 。 


Recelved Received 


E 


Received Received Received Received 


gm 


MPI Bcast MPI Scatter 
(root-0) (root-1) 


图 2-2 ”该 图 描绘 了 一 个 有 3 个 进程 的 通信 子 的 MPI 集 体操 作 Bcast、Scatter 以 及 Allga-ther。 使 用 这 些 操 作 ， 可 以 以 多 种 不 同 的 模式 对 数据 进行 分 发 和 组 合 以 支持 各 种 算法 


Received 


Received Received 


N 


MPI Gather 
: MPI_Allgather 
(root=2) 2 F Raik? 
2 


在 许多 集体 通信 中 ， 将 一 个 参与 的 进程 指定 为 根 进程 ， 它 将 在 操作 中 有 一 个 特殊 的 作用 ， 它 作为 整体 消息 来 源 或 目标 地 ， 根 据 一 个 特定 模式 分 友和 组 合 数据 。 


由 pbdMPI 和 Rmpi 揭 示 的 MPI 集 体 通信 的 设置 详情 如 下 表 所 示 。 


分 组 通信 (参考 前 面 的 图 ) 


MPI API 调用 pbdMPI 等 价 调用 Rmpi 等 价 调用 


MPI Barrier (MPI Ref: p.147 barrier mpi.barrier (comm 
€ comm: 这 是 barrier 执行 的 通 (comm=0 ) m M 
信子 ) 返回 : NULL 返回 : NULL 
默认 参数 值 定 义 在 $SSPMD.cT 
中 ， 并 可 以 在 那里 进行 更 改 


MPI Barrier 是 最 简单 的 集体 通 IR RU. 它 阻 旱 给 定 通信 子 中 的 所 有 进程 ， te s MPI 
Barrier。 它 可 以 用 来 在 所 有 进程 中 创建 一 个 共 圣 代码 Wd 同步 点 。 如 果 通 信子 中 的 任何 一 没有 调用 
MPI Barrier, 那么 调用 MPI Barrier mei 进程 将 永远 阻塞 。 


MPI Bcast (MPI Ref: p.148 bcast ( mpi.bcast(x, type, 
@ buf: 这 是 调用 者 本 地 连续 内 存 | Robject, rank=0, 
中 的 第 一 个 对 象 的 基地 址 rank. comm=1, 
€ count: 这 是 要 发 送 或 接收 的 内 | source=0, buffunit=100) 
存 绥 冲 区 中 的 对 象 的 数量 comm=0 返回 : 在 根 进程 中 是 NULL， 
€ datatype: 这 是 根据 对 象 的 大 | ) 在 其 他 进程 中 是 x qu] tt 
小 对 象 大 小 被 推出 的 对 象 定 义 | 返回 : Robject mpi.bcast. 


的 枚 举 

€ root: 这 是 在 通信 子 中 传输 其 
数据 到 了 所 有 其 他 进程 的 源 进程 
的 排名 


Rob] (Robject, 
rank=0, comm=1) 


分 组 通信 mS LI) 
€ comm: 这 有 是 通信 子 ， 在 其 中 广播 


消息 ) 


E 


返回 : 在 根 进程 中 是 NULL, 在 


其 他 进程 中 是 Robject 


mpi.bcast. 
Rfunzalave|( 
comm-l) 
mpi.bcastrt. 
RabjZslave| 
Robject-null, 
comm-l, 
all-FALSE] 
mpi.bcast. 
dataZslave!( 

R matrix or 
vector of type 
double, comm-l, 
butfunit=100) 
e 1 一 整数 

e ?一 数字 

e 3 一 字符 


所 有 进程 都 必须 用 与 根 进 程 和 通信 子 相同 的 值 调 用 MPEI Beast: Fil, RES. BR 
ERa tHe. HIEdhsbEB4A UOCE EE] TERR PRIX s fap se ded e zx 09 ETE . 

it pbdMPI t, rank.source 是 根 进 程 。 在 Rmpi à, rank 是 根 进 程 ，buffunit 是 要 广播 的 向 量 中 的 
type 数据 杀 目 的 数量 . 


Rmpi.bcast 调用 用 来 传 辑 简单 的 整数 、 数 宇 或 字符 类 型 的 癌 基 数据 . 


Rmpi 的 Robj23lave (W$ a1l=TURE，, 特 了 所 有 主 进程 对 章 传 送 到 工作 者 进程 )、Rfun2slawe (将 所 有 
主 进程 的 及 函数 定义 传送 到 工作 者 进程 ) 和 Rdata2slave (快速 传送 主 进程 中 的 一 个 double 类 型 的 数组 ) 
方便 的 函数 是 内 置 mpi 集群 框架 的 一 部 分 ,并且 总 是 将 数据 从 主 进程 传送 到 工作 者 进程 。 正 如 我 们 在 本 章 


前 面 讨论 的 ， 当 没有 处 理 尾 务 时 ， 
MPI- 


Scatter (MPI Ref p.159 Scatter (xXx, 
sendbuf: 这 是 调用 者 本 地 连续 内 | x.buffer-NULL, 
存 中 的 对 和 的 基地 址 x.count-NULL, 
sendcount: MEAN mE] displis-NULL, 
bu rank.source-ü, 
sendtype ; 这 其 要 发 送 的 对 但 的 | comm=0) 


Sie Se m 

recvbuf : DUPRE m dE DE ee 
的 地 址 指针 

recvcount: 这 古 可 以 接收 的 缓冲 
DS fy ete Oh) Set 

recvtype: DEERE She 


[作者 进程 总 是 等 竺 主 进 程 的 下 一 个 广播 消息 。 


mpi.scatter(x, 
type, rdata, 
root-Ü, comm-l) 
mpi.scattervix, 
3counts3a, type, 
rdata, root=0, 
comm-1i) 


type 的 有 效 便 是， 
e =EN 


e :一 数字 


(£x) 
LE LEE LE) 
€ root: HETES e de RRP 


f 
& comm: Bit m See S 
fat) 


ee, RELL TRE: 

MPI Scatterv (MPI Ref p.161 
sendbuf, 
sendcounts[comm.size] : HEA 

送 到 相关 排名 进程 的 数据 个 数 ( counts) 

的 数组 
displs[comm.size]: 这 上 其 应 用 于 

sendbuf tdg ERE. Mom b i 

Si RRS i eR 
gendtype,recvbuf,recvcount,r 

ecvtype,root,comm) 


MPI Scatter Mi FA MPI Beast MEP ee. LPR TERRE ACH Rar) Hee 
子 集 。 本 质 上 ， 在 MPI 通信 寺中 有 NN 个 进程 ， 根 进程 的 数据 划分 分 为 i=1..N 大 小 相等 的 部 分 (每 一 部 分 的 
太 小 由 sendcount Ml type 2M), 和 将 第 i 部 分 故 送 到 对 应 的 排名 为 i 的 进程 中 。 

MPI ScattervP RRP. 使 根 进 程 可 以 将 不 同志 小 数据 有 段 发 送 辣 每 一 个 其 他 的 进程 。 
dipls 位 移 届 移 量 娄 组 可 以 雁 发 送 轩 冲 区 中 分 发 不 连续 的 数据 段 。 

TR, sae (ri T HIT See 


MPI Gather { gather(x , mpi.gather(x, type, 
è sendbuf: 这 基调 用 者 本 地 连续 内 | x.buffer-NULL, rdata, root=0, 
Trop 8 PH EE ah x.count-NULL, comm-l) 


èë sendcount; MBE PRS He 


量 


€ sendtype ; ik dé EE iE S Bg v 


据 类 型 


è recvbuf.; QBN AHA HE 


displs-NULL, 


rank.dest-ü, 


comm-l, 
unlist-FALSE) 
ie]; NULL 


mpi.gatherv(x, 
type, rdata, 
rcounts, root-0, 
comm-1i) 


mpi.allgather(x, 


的 基地 址 allgather (x, type, rdata, 
è recvcount: HESR P Hik | x.buffer-NULL, comm-1) 

gii xp e gm x.Count-NULL, mpi.allgatherv (x, 
e recytype : MEWS HA E | displs-NULL, type, rdata, 

类 型 comm-l, rcounts, comm-l) 
e root: 这 是 接收 数据 的 目标 进程 的 | unlist=FALSE) type [Ff B i: 

A ik]; NULL e 1—148€" 


e comm: 这 是 本 次 收集 操作 的 通信 子 ) 


同样 .让 我 们 观察 以 下 函数 : 
MPI Allgather( 


5endbutf,sendcount,sendtype,r 


ecvbuf,recvcount,recvtype,comm 


e 2—HU'r 
e 3 一 字符 


( 续 ) 

分 组 通信 【参考 上 图 ) 

| 

MPI Gatherv | 

3endbutf,sendcount,sendtype,re 
cvbut, 

recvcounts[comm.size]: 这 荐 从 相 
甘 排 名 的 进程 中 接收 数据 的 计数 counts) 
的 数组 

displs[comm.size]: maw H F 
recvbuf Mi ieee. MUR SR SS i 
个 数据 到 排名 为 i 的 进程 中 

} 

同样 ， 让 我 们 观察 以 下 ER E 

MPI Allgatherv | 

3endbuf,sendcount,sendtype, 
recvcounts,displs,recvtype,comm 


) 


MPI Gather 5 MPI Scatter 相反 ， 同样，MFI Gatherv 也 与 MEI Scatterv HE., MPI Gather $ 
集 通 信 了 于 中 所 有 进程 到 指定 根 进 程 的 相同 数量 的 数据 。MPI Gatherv 对 此 进行 扩展 ， 可 以 从 每 个 进程 中 收 
集 不 同 数量 的 数据 并 将 数据 放置 在 香 汪 接收 者 冲 区 内 的 非 连 纺 恨 称 量 中 ， 

在 及 中 ,对 数值 癌 基 和 矩阵 通常 使 用 收集 操作 。 


MPI Reduce (MPI ref: p.174 reduce (x, mpi.reduce(x, 

è sendbuf; HER ERNAS | x.buffer-NULL, type-2, op, 

è recvbuf: 这 是 存放 汇总 简化 数据 | op=""sum"", dest-0, comm-l) 
的 组 种 区 rank.dest-ü, mpi.allreduce { 

€ count: REPRE X n) ee comm=1 ) X, type-2, op, 

è datatype: HEMER NÆ allreduce | comm=1 

è op: 这 是 应 用 于 数据 的 简化 操作 x, x.buffer=NULL, ) 

€ root; 这 其 接 收 黄 化 数据 的 进程 的 | op-""sum"", type 的 有 将 值 是 : 


HA comm=1 èe 1 二 整数 
® comm; 这 是 本 次 简化 的 通信 子 ) | e 2 二 数字 
EHE, MEL FAR: 
MPT Allreduce (MPI ref; p.187 
sendbut,recvbuf,count, 


datatype, 


op, comm} 


可 以 认为 MEI Reduce È MPI Gather 的 一 个 扩展 。 它 对 所 有 进程 向 主 进程 传送 的 数据 执行 额外 的 简化 ， 
RELL in Be —; sum. prod. max, min, maxloc 以 及 minlocs 在 及 中 ， 简 化 措 作 用 来 狂 理 整 
值 数 据 。 im. E EREE MARIE CARAN. maslo 操作 返回 具有 最 坟 值 的 简化 向 量 和 具有 最 大 值 
的 进程 排名 的 序列 对 。 同 样 , minloc 返回 最 小 值 和 具有 最 小 值 的 进程 排名 。 

MPI 三 L1Freduce 赴 展 了 该 行为 ， 使 得 在 通 售 子 中 的 所 有 进程 都 接收 基 后 的 纺 果 而 不 促 仅 是 一 个 进程 ， 


“© ppp : 这 是 在 R 中 用 大 数据 编程 的 一 种 更 高 层次 的 抽象 。 对 于 用 R 传 递 信息 的 更 多 情况 ， 可 以 参考 优秀 的 pbdR 书 籍 《Speaking Serial R with a Parallel Accent? . CEA 


出 了 额外 有 用 的 高 级 编程 大 数据 包 的 全 面 阐述 ， 该 包 专 门 使 用 pbdMPI。 可 以 从 下 面 的 CRAN 链 接 免 费 获 
得 : https://ctan.rproject.org/web/packages /pbdDEMO /vignettes /pbdDEMO-guide.pdf. 
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现在 可 以 暂时 休息 一 会 儿 。 在 本 章 中 ， 我 们 介绍 了 基本 概念 以 及 MPI API。 学 习 了 如 何 与 OpenMPI 结 合 来 利用 Rmpi 和 pbdMPI 包 。 我 们 探讨 了 在 R 中 阻塞 和 非 阻塞 通 
信 的 一 些 简单 例子 并 介绍 了 在 MPI 中 的 集合 通信 操作 。 我 们 深入 了 解 Rmpi 包 自己 的 主 /工作 者 模式 的 底层 实现 以 便 管理 R 代 码 的 并 行 执 行 。 你 现在 拥有 足够 的 基础 在 R 中 编 
写 各 种 高 度 可 扩展 的 MPI 程 序 。 


在 下 一 章 中 ， 我 们 将 通过 介绍 空间 网 格式 并 行 性 的 一 个 特别 MPI 示 例 ， 完 成 天 于 MPI 的 讨论 ， 并 简单 阐述 在 R 中 其 他 更 深奥 的 MPI APIR. 


Bim man MES 


本 章 我 们 通过 关注 消息 传递 更 高 级 的 方面 ， 继 续 MPI 的 学 习 之 旅 。 特 别 地 ， 我 们 探讨 一 个 特定 的 结构 化 方法 ， 它 能 有 效 地 处 理 空间 组 织 数 据 的 分 布 式 计算 ， 该 方法 称 
为 网 格 并 行 性 。 我 们 将 通过 一 个 图 像 处 理 的 详细 例子 来 说 明 非 阻塞 通信 的 使 用 ， 其 中 包括 进程 间 消 息 交 换 的 本 地 模式 ， 基 于 一 个 适当 配置 的 Rmpi 主 /工作 者 集群 。 


在 本 章 中 ， 我 们 将 讨论 其 他 的 MPI API 调 用 ,包括 MPI Cart create () 、MPI Cart rank () 、MPI Probe 和 MPI Test， 并 简要 回顾 在 第 1 章 首 次 遇 到 的 par- 
Lapply () ” (也 提 到 了 snow 程 序 包 ) 。 


因此 ， 闲 话 少 说 ， 让 我 们 探讨 如 何 使 用 R 中 的 MP| 来 执行 面向 空间 的 并 行 处 理 。 


3.4 网 格 并 行 性 


网 格 并 行 性 目 然 与 图 像 处 理 对 齐 ， 其 中 的 操作 可 以 以 如 下 形式 投射 : 作用 于 数据 的 每 个 单元 值 的 一 个 特定 的 局 部 区 域 。 通 常 ， 单 元 值 在 2D 图 像 数 据 中 称 为 像素 ， 在 
3D 图 像 数据 中 称 为 体 素 (三 维 像素 ) 。 当 然 ， 网 格 可 以 是 N 维 矩阵 结构 ， 但 作为 人 类 ， 搞 清楚 超过 4D 的 情况 有 些 困难 。 


有 效 的 网 格 并 行 性 的 关键 在 于 一 系列 平行 过 程 的 数据 的 分 布 映 射 和 每 个 过 程 之 间 的 互相 影响 ， 因 为 它们 可 能 彼此 交换 数据 以 适应 迭代 运算 ,该 运算 需要 访问 比 每 个 进 
程 本 地 所 拥有 的 更 多 的 数据 。 考 虑 一 个 简单 但 非常 大 的 正方 形 2D 图 像 ， 我 们 有 一 个 9 个 独立 可 用 计算 核心 的 集群 。 为 了 说 明 这 一 点 ， 我 们 将 添加 一 个 约束 ， 即 每 个 计算 节 
所 只 有 比 忌 图 像 的 1/9 多 一 点 的 足够 的 数据 内 存 。 在 集群 的 9 个 MPI 进 程 中 ， 现 在 有 两 个 明显 的 方法 可 以 分 解 图 像 。 我 们 可 以 把 数据 分 成 9 个 大 小 相等 的 平 铺 正方 形 ， 其 中 
集群 作为 3x 3 的 网 格 ， 或 者 分 成 9 个 大 小 相等 的 相 邻 条 纹 (有 效 地 ，1x9 网 格 ) 。 这 两 个 选项 摘 述 如 图 3-1 所 示 。 


等 级 4 必须 
交换 数据 
“Je” Al "BH 


图 3-1 图像 分 成 9 个 大 小 相等 的 条 纹 


正如 我 们 所 见 ， 与 平 铺 (tiled) 法 相 比 ， 条 纹 法 意味 着 在 条 纹 边 界 进程 间 的 信息 交换 更 少 。 在 前 一 种 情况 下 ， 排 名 4 必须 和 它 的 两 个 邻居 (3 和 5) 交换 ;在 后 一 种 情 
况 下 ,假设 对 角 线 上 需要 交换 ， 而 不 只 是 与 基本 邻居 交换 ， 那 么 排名 4 可 能 需要 与 其 他 所 有 8 个 进程 进行 交换 ， 如 图 3-2 所 示 。 


我 们 也 应 该 承认 两 种 不 同方 法 的 进程 间 需 要 的 通信 和 量 是 不 均衡 的 。 在 条 纹 情况 下 ， 只 有 排名 0 和 排名 8 执行 一 次 信息 交换 ， 其 余 所 有 的 都 要 执行 两 次 信息 交换 。 在 平 铺 
情况 下 ， 排 名 0、2、6 和 8 (A) 有 3 次 信息 交换 ;排名 1、3、5 和 7 (基本 邻居 ) 有 5 次 信息 交换 ， 排 名 4 独自 有 8 次 信息 交换 。 这 意味 着 在 平 铺 情况 下 ， 处 理 的 总 体 效率 由 
排名 4 决定 ， 其 执行 信息 交换 的 次 数 比 平均 值 多 一 倍 ， 因 此 ， 其 他 进程 必然 会 以 等 竺 它们 交换 数据 而 结束 。 


AL 


Pu - 东 


十 


等 级 4 必须 
交换 数据 


图 3-2 ”图 像 分 成 9 个 相同 的 正方 形 块 。 坐 标 规 则 是 (y, x) 以 反映 R 编 码 


在 这 种 规模 下 很 可 能 束 是 这 种 情况 。 然 而 ,我们 也 应 该 注意 到 相 比 于 条 纹 情 况 ， 平 铺 情 况 下 邻居 间 用 于 交换 的 数据 量 较 少 。 由 于 随 着 我 们 增加 网 格 中 进程 的 数量 , 信 
息 交 换 的 平均 个 数 增加 (有 更 多 的 内 部 块 ) ， 所 以 邻居 间 交 换 的 数据 量 的 差别 也 支持 平 铺 的 情况 。 此 外 ， 平 铺 情 况 下 交换 的 数据 量 减少 ( 块 大 小 减 小 ， 边 界 周 长 减少 ) ， 
然而 ， 在 条 纹 情 况 下 ， 条 纹 边 界 的 长 度 保持 不 变 。 另 外 ， 名 数据 处 理 的 类 型 要 求 数据 交换 履 兰 人 在 网 格 边界 上 ， 则 网 格 中 的 所 有 进程 将 需要 参加 相同 次 数 的 邻居 交换 。 这 个 
例子 强调 对 一 个 给 定 的 并 行 性 规模 而 言 ， 为 什么 考虑 数据 如 何 分 配 和 了 映射 以 及 它 可 能 如 何 影响 通信 的 效率 从 而 影响 总 体 运行 时 间 是 重要 的 。 


既然 我 们 已 经 对 网 格 并 行 性 有 了 很 好 的 了 解 ， 融 让 我 们 运行 一 些 代 码 。 


3.1.1 创建 网 格 集群 


通常 ，MPlI 包 含 多 种 效用 消 数 以 帮助 配置 MPI 泡 围 为 网 格 。 本 质 上 ， 这 归结 于 将 MPI 进 程 排名 的 线性 集合 映射 为 多 维 坐 标 系 。 


下 面 基 于 Rmpi 的 代码 建立 了 一 个 给 定 维度 的 正方 形 网 格 。 它 也 将 一 个 特定 的 新 的 comm 句 柄 与 这 个 网 格 相 关联 ， 以 便于 从 其 他 进程 中 分 离 出 网 格 通 信 ， 尤 其 是 从 没有 
在 网 格 计算 本 身 起 作用 的 Rmpi 主 进程 中 分 离 出 那些 通信 。 


Worker makeSquareGrid <- function(comm,dim) { 
grid <- 1000 + dim # assign comm handle for this size grid 


dims <- c(dim, dim) # dimensions are 2D, size: dim X dim 
periods <- c(FALSE,FALSE) # no wraparound at outermost edges 
if (mpi.cart.create (commold=comm, dims, periods, commcart=grid) ) 


{ 


return (grid) 


j 


return(-1) # An MPI error occurred 


注意 ,使 用 mpi.cart.create () 为 一 组 目前 的 MPI 进 程 构建 了 一 个 笛 卡 尔 排名 /网 格 映射 ， 并 且 把 一 个 新 的 特定 的 通信 子 句 柄 与 网 格 相 天 联 。 我 们 知道 ，Rmip 保 留 了 
它 自 己 的 内 部 MPI 句 柄 引用 的 数组 ， 我 们 用 于 通信 子 关 联 的 句柄 引用 必须 是 这 个 数组 中 当前 未 使 用 的 索引 (因此 ，1000 偏 移 量 ) 。 尽 管 对 我 们 而 言 这 不 是 理想 的 编码 ， 鉴 
于 Rmpi 暴 露出 的 接口 的 性 质 ， 但 它 是 务实 的 。 


既然 已 经 通过 Rmpi 建 立 了 网 格 关联 ， 那 么 我 们 就 可 以 对 每 一 个 进程 使 用 它 的 mpi.cart.coords () 和 mpi.cart.rank () 函数 来 找 出 它 是 网 格 中 的 哪个 单元 以 及 它 邻 居 
的 排名 。 没 有 这 些 信息 ， 我 们 就 不 能 决定 应 该 与 哪个 其 他 排名 的 进程 交换 图 像 边界 信息 。 在 网 格 中 不 能 自动 将 一 个 特定 的 排名 分 配给 一 个 特定 的 坐标 ， 所 以 ， 我 们 需要 明 
确 地 询问 它们 之 间 创 建 了 什么 关联 。 


worker initSpatialGrid <- function(dim,comm-Wcomm) 
{ 
Gcomm <- worker makeSquareGrid (dim, comm) 
myRank <- mpi.comm.rank (Gcomm) 
myUniverseRank <- mpi.comm.rank(1) # Lookup rank in cluster 
myCoords <- mpi.cart.coords (Gcomm, myRank, 2) 
myY <- myCoords[1]; myX <- myCoords[2]; # (y^,x») 
coords <- vector (mode="list", length=8) 
neighbors <- rep(-1,8) 
if (myY«1 < dim) { 
neighbors [N] <- mpi.cart.rank(Gcomm,c (myY+1, myX) ) 
j 
if (myX+1 < dim && myY+1 < dim) { 
neighbors [NE] <- mpi.cart.rank(Gcomm,c (myY+1,myX+1) ) 
j 
if (myX«1 « dim) { 
neighbors[E] <- mpi.cart.rank(Gcomm,c (myY,myX-«1)) 
j 
if (myX+1 « dim && myY-1 >= 0) { 
neighbors [SE] <- mpi.cart.rank(Gcomm,c (myY-1,myX-41)) 


j 


if (myY-1 >= 0) { 


neighbors[S] <- mpi.cart.rank (Gcomm,c (myY-1,myX)) 
} 
if (myX-1 >= 0 && myY-1 >= 0) { 

neighbors [SW] <- mpi.cart.rank (Gcomm,c(myY-1,myX-1) ) 
} 
if (myX-1 >= 0) { 

neighbors [W] <- mpi.cart.rank (Gcomm,c (myY,myX-1)) 
j 
if (myX-1 >= 0 && myY«1 < dim) { 

neighbors [NW] <- mpi.cart.rank (Gcomm,c (myY-«1,myX-1)) 
j 
# Store reference for neighbor comms 
assign("Neighbors", neighbors, envir-.GlobalEnv) 
# Store reference for grid communicator 
assign("Gcomm", Gcomm, envir-.GlobalEnv) 
return (list (myY,myX,myUniverseRank)) 


前 述 的 initspatialGrid () 函数 确定 调用 的 MPI 进 程 、 它 的 排名 、 网 格 坐标 以 及 与 它 的 8 个 邻居 的 调用 。 在 它 没有 邻居 的 地 方 ， 将 它 邻 居 的 排名 设置 为 -1， 因 为 调用 的 
MPI 进 程 位 于 网 格 边缘 。 我 们 将 在 MPI 范 围 内 对 映射 排名 的 坐标 返回 给 主 进程 以 便 它 可 以 决定 哪 一 个 图 像 块 将 友 送 给 哪 一 个 排名 的 工作 者 。 我 们 也 存储 邻居 和 网 格 通 信子 
作为 全 局 变量 ， 以 便当 主 进程 以 后 调用 它 时 在 工作 者 的 独立 处 理 循环 提供 参考 。 


3.1.2 ”边界 数据 交换 


图 3-3 摘 述 了 数据 交换 的 模式 。 每 个 独立 进程 都 有 上 自己 图 像 的 选取 ， 并 且 额 外 需要 由 图 像 相 邻 进程 的 内 部 单 像素 边界 填充 的 外 部 单 像素 边界 进行 操作 。 图 3-3 中 的 着 色 
设计 显示 了 每 个 进程 是 如 何 和 它 的 相 邻 进程 构成 数据 重 革 部 分 的 。 那 些 占据 图 像 一 定 区 域 〈( 即 处 于 完整 图 像 的 真正 边 绿 ) 的 进程 (在 这 种 情形 下 ， 除 排名 4 以 外 的 所 有 进 
程 ) ， 在 这 个 边 上 (灰色 地 市 ) 有 一 段 人 工 重 码 边界， 它 用 超出 标准 像素 图 像 值 学 围 的 值 填充 (在 我 们 的 灰 度 级 图 像 中 ， 像 素 值 的 标准 有 效 范 围 是 0 至 255) 。 它 简化 了 中 
值 滤波 函数 的 编码 ， 而 不 用 干扰 生成 的 滤波 结果 。 


中 值 过 滤 是 3x 3 的 窗口 算 子 。 若 我 们 使 用 更 大 的 窗口 算 子 ， 则 我 们 需要 通过 必要 的 像素 数 来 扩大 重 革 边界 。 


正如 我 们 在 前 面 的 图 像 中 看 到 的 ， 建 立 数据 访问 交换 集合 的 模式 有 一 点 点 复杂 性 。 


下 面 是 一 个 执行 基于 本 地 正方 形 图 像 数 组 (img) 的 边界 交换 的 实现 ， 该 数组 直接 包括 一 个 像素 重 芭 。 这 里 我 们 显示 了 无 阻塞 友 送 序列 : 


$ local image tile has one pixel shared border 
edge <- ncol(img)-1 # image is square: ncol=nrow 
sbuf <- vector(mode="list", length=8) # 8 send buffers 
reg <= 8 
# non-block send my tile data boundaries to my neighbors 
if (neighbors [N]>=0) { # north 
sbuf[[N]] <- img[2,2:edge] 
mpi.isend(sbuf[[N]],1,neighbors[N],N,comm-comm,request-req) 
req «- reg + 1 
j 
if (neighbors[NE]»-0) { # ne 
sbuf [NE] <- img[2,edge] # top-right inner cell 
mpi.isend(sbuf[[NE]],1,neighbors [NE] ,NE, 
comm=comm, request=req) 
reg <- req + 1 
} 
# Sends to East, South-East and South not shown 
if (neighbors [SW]>=0) { # sw 
sbuf[[SW]] <- img[edge,2] # bottom-left inner cell 
mpi.isend(sbuf[[SW]],1,neighbors [SW] ,SW, 
comm=comm, request=req) 


reg <= réq + a 
} 
if (neighbors [W]>=0) { # west 
sbuf[[W]] <- img[2:edge,2] # leftmost inner col 
mpi.isend(sbuf[[W]],1,neighbors [W] ,W, comm=comm, request=req) 
req «<+ req + 1 
} 
if (neighbors [NW] >=0) { # nw 
sbuf[[NW]] <- img[2,2] # top-left inner cell 
mpi.isend(sbuf[[NW]],1,neighbors [NW] ,NW, 
comm=comm, request=req) 
reg <- req + i 


} 


每 一 个 无 阻塞 友 送 都 与 一 个 从 0 到 7 的 请 求 句柄 相关 联 ， 编 号 同样 为 1 到 8 从 北 顺 时 针 旋转 到 西北 。 我 们 也 给 友 送 从 1 到 8 设置 了 标签 ， 作 为 明确 的 方向 标记 。 


接 下 来 我 们 展示 无 阻塞 接收 ， 尽 管 注意 到 我 们 从 北面 的 邻居 接收 数据 ， 例 如 ， 是 其 最 内 层 向 南 友 人 送 的 数据 。 我 们 需要 确保 付 确 匹配 每 一 个 方向 对 的 这 些 相反 的 位 置 ， 
然而 ， 由 于 我 们 只 有 来 自 每 一 个 指南 针 基 本 的 和 基本 邻居 间 的 单个 信息 ， 所 以 建立 接收 信息 的 tag 是 没 必 要 的 ， 即 ， 我 们 可 以 只 使 用 mpi.any.tag () : 


# Set-up non-blocking receives for incoming boundary data 
# Local image tile has one pixel shared border 
len <- ncol (img) -2 
rbuf <- vector(mode="list", length=8) # 8 receive buffers 
for (UE in 1:8) 4 
if (neighbors[i]>=0) { 
rbuf[[i]] <- integer (length=len) 
tag <- mpi.any.tag() 
mpi.irecv(rbuf[[i]],1,neighbors [i] ,tag, 
comm=comm, request=req) 
reg <= req + i 
} 
} 


接收 缓冲 区 的 大 小 


注意 ， 我 们 没有 把 每 个 接收 缓冲 区 准确 地 按 大 小 排列 ， 这 样 简化 了 编码 ， 但 是 如 果 让 每 一 个 缓冲 区 都 与 最 大 的 数据 量 一 样 大 ， 我 们 将 可 以 接收 任意 发 送 端 发 送 的 数 
HE o 


图 像 处 理 迭 代 的 下 一 步 是 完成 边界 交换 。 这 要 求 我 们 只 是 等 待 已 经 创建 的 所 有 未 完成 的 通信 请 求 并 有 效 地 保存 req 变 量 的 计数 。 
mpi.waitall (req) 

既 漂亮 义 简 单一 我 们 只 需要 等 待 未 完成 请 求 (包括 发 送 和 接收 ) 的 总 数目 ， 我 们 已 经 给 它 分 配 了 从 0 到 15 的 请 求 句柄 来 完成 。 
现在 我 们 接 下 来 要 做 的 是 把 各 个 缓冲 区 中 接收 到 的 数据 重新 映射 到 我 们 的 图 像 数组 中 ， 为 接 下 来 的 处 理 迭 代 做 准备 。 


# Unpack received boundary data into my image tile 
n <- ncol (img) 
if (neighbors[N]>=0) { # north 
img[1,2:edge] <- rbuf[[N]] # top row 
} 
if (neighbors[NE]»-0) { # ne 
img[1,n] <- rbuf[[NE]] [1] # top-right cell 
} 
if (neighbors[E]>=0) { # east 
img[2:edge,n] <- rbuf[[E]] # rightmost column 
} 
if (neighbors[SE]>=0) { # se 
img[n,n] <- rbuf[[SE]] [1] # bottom-right cell 
} 
if (neighbors[S]>=0) { # south 
img[n,2:edge] <- rbuf[[S]] # bottom row 
} 
if (neighbors[SW]>=0) { # sw 
img[n,1] <- rbuf[[SW]] [1] # bottom-left cell 
} 
if (neighbors[W]>=0) { # west 
img[2:edge,1] <- rbuf[[W]] # leftmost column 


} 


if (neighbors [NW] >=0) { # nw 
img[1,1] <- rbuf[[NW]] [1] # top-left cell 


j 


为 了 把 所 有 这 些 结合 在 一 起 ， 现 在 我 们 需要 实现 应 用 于 每 个 进程 所 保存 的 图 像 部 分 的 算 子 。 在 我 们 的 示例 中 ， 我 们 使 用 中 值 滤波 ， 所 以 让 我 们 探索 下 一 步 是 什么 。 


3.1.3 EIR 


在 图 像 处 理 中 使 用 了 大 量 的 局 部 化 的 、 相 邻 导 向 的 处 理 算 子 。 对 于 我 们 的 示例 ， 我 们 将 使 用 中 值 滤波 : 一 个 经 典 的 用 于 去 除 图 像 中 噪声 的 平滑 算 子 。 这 是 一 个 相对 简 
单 的 ， 它 可 以 用 于 对 一 个 图 像 进行 多 次 处 理 ， 所 以 对 于 我 们 的 教学 目的 ， 它 是 理想 的 。 你 可 能 赁 直觉 知道 ， 该 运算 把 输出 中 的 目标 像素 值 设 置 为 输入 中 的 像素 的 有 序 排名 
和 它 周 围 像素 值 的 中 值 (Bshttps://en.wikipedia.org/wiki/Median filter) 。 图 3-4 摘 述 了 3x 3 邻 域 窗口 的 运算 ， 位 于 目标 像素 的 中 心 。 
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图 3-4 3X3 像 素 窗口 的 中 值 滤波 ， 它 适用 于 更 大 的 灰 度 图 像 中 的 单个 像素 


下 面 给 出 了 中 值 滤波 的 简单 实现 : 


medianFilterPixel3 <- function(y,x, img) { 
V <- vector("integer",9) # bottom-left to top-right 
v[1]«-img[y-1,x-1]; ví[2]«-img[y-1,x]; v[3]<-img[y-1,x+1]; 
v[4]«-img[y, x-1]; v[5]«-img[y, x]; v[6]«-img[y, x+1]; 
v[7]«-img[y-«1,x-1]; v[8]«-img[y^41,x]; v[9]<-img[y+1,x+1] ; 
S «- sort(v); # sort by pixel value (default ascending) 
return (s[5]) # return the middle value of the nine 


} 


显而易见 : 窗口 的 9 个 像素 值 构 成 了 一 个 向 量 ， 随 后 对 它 排序 ， 挑 选 出 放置 在 中 间 的 值 。 


3.1.4 “ 平 铺 分 配 图 像 


不 要 介意 双关 语 ， 图 片 的 最 后 部 分 是 图 像 本 身 。 出 于 测试 的 目的 ， 我 们 创建 一 个 大 的 正方 形 灰 度 图 像 作为 例子 ， 并 应 用 了 一 些 随机 噪声 来 使 中 值 滤波 平滑 。 然 后 这 个 
大 的 图 像 由 主 进程 分 配 为 P 个 等 大 的 块 ， 通 过 P 个 工作 者 进程 的 Rmpi 网 格 ， 形 成 局 部 块 数组 。 然 后 ， 用 超出 范围 的 数据 值 初始 化 图 片 边界 数据 ， 为 工作 者 进程 做 准备 。 下 
面 是 主 进 程 执行 的 代码 : 


# We create large B/W image array with values in range 101-111 

height <- Height; width <- Width; 

imagel <- matrix(sample(101:111,height*width, replace=TRUE) , 
height, width) 

# We add a bit of white saturation noise (pixel value=255) 

imagel [height /6,width/6] <- 255 


imagel [height/1.5,width/1.5] <- 255 


# Tell the workers to process the image (3 pass MedianFilter) 
# The Workers first wait to receive their local tile from the 


# Master,then do their multi-pass image processing, then finally # 
send their processed tiles back to the Master. 


mpi .bcast .cmd (worker gridApplyMedianFilter (3) ) 
Start <- proc.time() 


# We split the image into non-overlapping square grid tiles 
# and distribute one per Worker 
twidth <- width/dim # tile width 
theight <- height/dim # tile height 
for (ty in 0:(dim-1)) { # bottom-left to top-right 
sy <- (ty * theight) +1 
for (tx in 0:(dim-1)) { 
SX <- (tx * twidth) +1 
tile <- imagel[sy: (sy«theight-1),sx: (sx+twidth-1) ] 
# Send tile to the appropriate Worker 
worker <- workerRanks [ty+1,tx+1] 
mpi.send.Robj (tile, worker,1,comm=1) 


随后 ， 主 进程 只 是 等 着 接收 网 格 工作 者 处 理 的 图 像 块 ， 并 放置 它们 来 重组 图 像 


# Master receives output tiles in sequence and unpacks 
# each into its correct place to form the output image 
for (ty in 0:(dim-1)) { # bottom-left to top-right 
sy <- (ty * theight) +1 
for (tx in 0:(dim-1)) { 
sx <- (tx * twidth) +1 
# Receive tile from the appropriate Worker 
worker <- workerRanks [ty+1,tx+1] 
tile <- mpi.recv.Robj (worker, 2,comm=1) 
image2 [sy: (sy+theight-1),sx: (sx+twidth-1)] <- tile 


处 理 图 像 块 


下 面 是 在 完整 的 代码 中 网 格 工作 者 执行 的 代码 ， 它 包含 在 一 个 消 数 中 ， 它 是 主 进程 用 mpi.bcast.cmd () 在 工作 者 网 格 中 执行 的 消 数 。 


# Worker Grid Function: worker gridApplyMedianFilter () 
# Receive tile from Master on Rmpi default comm 
tile <- mpi.recv.Robj (0,1,comm=1,status=1) 


# Create local image with extra pixel boundary 
theight <- nrow(tile); iheight <- theight+2; 
twidth <- ncol(tile); iwidth <- twidth+2; 

img <- matrix(OL,nrow-iheight,ncol-iwidth) 


4 Initialize borders with out-of-bound pixel values 

4 These values will be sorted to the ends of the set of 9 
# and so will not interfere with the real image values 
img[1,1:iwidth] «- rep(c(-1,256) ,times=iwidth/2) 
img[1:iheight,1] «- rep(c(-1,256) ,times=iheight/2) 
img[iheight,1:iwidth] <- rep(c(256,-1),times-iwidth/2) 
img[1:iheight,iwidth] <- rep(c(256,-1),times-iheight/2) 


H Set internal bounded area to the received tile 
img[2: (theight+1),2: (twidth+1)] <- tile 


一 旦 构建 了 图 像 ， 每 一 个 工作 者 进入 它 的 处 理 序列 ， 使 用 之 前 描述 的 代码 段 。 处 理 序列 如 下 所 示 : 
1) 每 一 个 工作 者 交换 边界 数据 ， 包 括 无 阻塞 上 帮 送 和 无 阻塞 接收 的 集合 ， 以 及 它 的 邻居 。 

2) 然后 它 将 中 值 滤波 算 子 应 用 于 内 部 图 像 块 构成 的 正方 形 中 的 所 有 像素 。 

3) 对 某 些 已 选 定 次 数 的 迭代 ， 重 复 步骤 1) 和 步骤 2) 。 

4) 然后 ， 将 产生 滤波 图 像 块 数据 返回 给 主 进 程 。 


下 一 节 提 供 了 所 有 基于 网 格 的 中 值 滤波 处 理 程序 的 完整 注释 代码 。 


3.1.5 PLETE EE 


下 面 列 出 的 代码 摘 述 了 用 Rmpi 实 现 的 基于 网 格 的 中 值 滤波 的 完整 程序 ， 并 分 解 成 几 个 部 分 说 明 本 章 前 面 开 有 友 代 码 的 各 个 步骤 : 


aH 

## Copyright 2016 Simon Chapple 

HS 

## Packt: "Mastering Parallelism with R" 

## Chapter 3 - Advanced MPI Grid Parallelism Median Filter 
HH 

library (Rmpi) 


# Useful constants 

Height<-200; Width<-200; # Size of image 

Dim<-2; # Square size of grid 

N<-1; NE<-2; E<-3; SE<-4; # Neighbor compass directions 
S<-5; SW<-6; W<-7; NW<-8; 


生成 网 格 集群 : 


worker makeSquareGrid <- function (dim, comm) 


{ 
print (paste0 ("Base grid comm-",comm," dim=",dim) ) 
grid <- 1000 + dim # assign comm handle for this size grid 
dims <- c(dim,dim) # dimensions are 2D, size: dim X dim 
periods <- c(FALSE,FALSE) # no wraparound at outermost edges 


if (mpi.cart.create(commold=comm, dims, periods, commcart=grid) ) 


{ 
} 


return(-1) # An MPI error occurred 


return (grid) 


worker initSpatialGrid <- function(dim, comm=Wcomm) 
{ 
Gcomm <- worker makeSquareGrid (dim, comm) 
myRank <- mpi.comm.rank (Gcomm) 
myUniverseRank <- mpi.comm.rank(1) # Lookup rank in cluster 
print (paste ("myRank:",myRank) ) 
myCoords <- mpi.cart.coords (Gcomm,myRank, 2) 
print (paste ("myCoords:",myCoords) ) 
& (y^,x») co-ordinate system 
myY <- myCoords[1]; myX «- myCoords [2]; 
coords <- vector(mode="list", length=8) 
neighbors <- rep(-1,8) 
if (myY+1 < dim) { 
neighbors [N] <- mpi.cart.rank(Gcomm,c (myY+1,myX) ) 
} 
if (myX+1 < dim && myY+1 < dim) { 
neighbors [NE] <- mpi.cart.rank (Gcomm, c (myY+1,myX+1) ) 
} 
if (myX+1 < dim) { 
neighbors [E] <- mpi.cart.rank(Gcomm,c(myY,myX+1) ) 


} 
if (myX+1 < dim && myY-1 >= 0) { 
neighbors [SE] <- mpi.cart.rank (Gcomm,c(myY-1,myX+1) ) 
} 
if (myY-1 >= 0) { 
neighbors[S] <- mpi.cart.rank(Gcomm,c (myY-1,myX)) 
} 
if (myX-1 >= 0 && myY-1 >= 0) { 
neighbors [SW] <- mpi.cart.rank(Gcomm,c (myY-1,myX-1)) 
} 
if (myX-1 >= 0) { 
neighbors [W] <- mpi.cart.rank(Gcomm,c (myY,myX-1)) 
} 
if (myX-1 >= 0 && myY+1 < dim) { 
neighbors [NW] <- mpi.cart.rank (Gcomm,c(myY+1,myX-1) ) 


} 


# Store reference for neighbor comms 
assign("Neighbors", neighbors, envir=.GlobalEnv) 
# Store reference for grid communicator 
assign("Gcomm", Gcomm, envir=.GlobalEnv) 

return (list (myY,myX,myUniverseRank)) 


边界 数据 交换 : 


worker boundaryExchange <- function(img,neighbors, comm) 
# More efficient to set-up non-blocking receives then sends 
neighbors <- Neighbors; comm <- Gcomm; 


# Set-up non-blocking receives for incoming boundary data 
# Local image tile has one pixel shared border 
len <- ncol(img) -2 
rbuf <- vector(mode="list", length=8) # 8 receive buffers 
reg <- 0 
for (i in 1:8) { 
if (neighbors[i]>=0) { 
rbuf[[i]] <- integer(length=len) 
tag <- mpi.any.tag() 
mpi.irecv(rbuf[[i]],1,neighbors [i] ,tag, 
comm=comm, request=req) 
req <- req + 1 


j 


edge <- ncol(img)-1 # image is square: ncol-nrow 
sbuf «- vector(mode-"list", length-8) # 8 send buffers 
# non-block send my tile data boundaries to my neighbours 


if (neighbors [N]>=0) [ # north 
sbuf [[N]] <- img[2,2:edge] 
mpi. isend ({sbuf [ [N] ] , 1, neighbors [N] , N, comm=comm, reguest=reg) 
reg <- reg + 1 
] 
if (neighbors[NE]»-0) [ # ne 
sbuf [NE] «- img[2,edgel]l 4 top-right inner cell 
mpi.isendí(sbuf[I[INE]],1,neighborsI[NE],NE, 
comm-comm,request-req) 
reg «- reg + 1 


} 


if (neighbors[E]»-0) [ # east 
sbutf[[E]] «- img[2:edge,edge] # rightmost inner col 
mpi.isendí(sbuf[[E]l,i1,neighbors[E]l,E,comm-comm,request-req) 
req <- req + 1 
] 
if (neighbors[SE]»-0) [ # se 
sebu£[[sSE]] «- img[edge,edge] # bottom-right inner cell 
mpi.isend(sbuf[I[SEll,1,neighbors[SE],SE, 
comm-comm,request-req! 
req «- reg + 1 
} 
if (neighbors[S]»-0) [ # south 
sbufl[s]] «- imgledge,2:edge] # bottom inner row 
mpi.isend(sbuf[I[s]],1,neighbors[S],sS,comm-comm,request-req!) 
req «- reg + 1 
] 
if (neighbors [SW]>=0) [ # sw 
sbu£[[sW]] «- img[edge,2] 4 bottom-left inner cell 
mpi.isendí(sbur[I[5Wl]1,1,neighbors[SswW],sW, 
comm-comm,request-req!) 
req «- reg + 1 
I 
if (neighbors[W]»-0) [ # west 
sbuf[[W]] <- img[í2:edge,2] # leftmost inner col 
mpi.isend(sbuf[I[wl]l,1,neighborsI[W]l,W,comm-comm,request-req) 
req «- reg + 1 
} 
if (neighbors [NW]>=0) { # nw 
sbutf[I[NW]] <- img[2,2] # top-left inner cell 
mpi.isendí(sbutf[[NWl]l,1,neighbors[NW],NW, 
comm-comm,request-req! 
req «- reg + 1 


I 
mpi.waitall(req) # Wait for all boundary comms to complete 


# Unpack received boundary data into my image tile 


中 值 滤波 : 


处 理 图 像 块 : 


n 


<- neol (img) 


if (neighbors[N]>=0) { # north 


} 


img[1,2:edge] <- rbuf[[N]] # top row 


if (neighbors [NE] >=0) { # ne 


img[1,n] <- rbuf[[NE]][1] 4 top-right cell 
} 
if (neighbors[E]>=0) { # east 
img[2:edge,n] <- rbuf[[E]] # rightmost column 
} 
if (neighbors[SE]>=0) { # se 
img[n,n] <- rbuf[[SE]][1] # bottom-right cell 
} 
if (neighbors[S]>=0) { # south 
img [n,2:edge] <- rbuf[[S]] 4 bottom row 
} 
if (neighbors[SW]>=0) { # sw 
img[n,1] «- rbuf[[SW]] [1] 4 bottom-left cell 
} 
if (neighbors[W]»-0) { 4 west 
img[2:edge,1] <- rbuf[[W]] # leftmost column 
} 
if (neighbors [NW] >=0) { # nw 
img[1,1] <- rbuf[[NW]] [1] # top-left cell 
} 


return (img) 


medianFilterPixel3 <- function(y,x,img) { 


j 


Ww «e W 


ector("integer",9) # bottom-left to top-right 


v[1]«-img[y-1,x-1]; v[2]«-img[y-1,x]; v[3]«-img[y-1,x-*1]; 


v[4]«- 


img[y, x-1]; v[5]«-img[y, x]; v[6é]<-imgl[y, 


X+1] ; 


v [7] <-img[y+1,x-1]; v[8]<-img[y+1,x]; v[9]<-img[y+1,x+1] ; 
S <- sort(v); # sort by pixel value (default ascending) 


return 


(s[5]) # return the middle value of the nine 


worker gridApplyMedianFilter «- function(niters) 


{ 


# Receive tile from Master on Rmpi default comm 
tile <- mpi.recv.Robj (0,1,comm=1,status=1) 


# Create local image with extra pixel boundary 
theight <- nrow(tile); iheight <- theight+2; 
twidth <- ncol (tile); iwidth <- twidth+2; 
print (paste ("Received tile:",theight,twidth)) 


img <- matrixi(O0L,nrow-iheight,ncol-iwidth) 


# Initialize borders with out-of-bound pixel values 

* These values will be sorted to the ends of the set of 9 
# and so will not interfere with the real image values 
img[1,1:iwidth] «- rep(c(-1,256) ,times-iwidth/2) 
img[1:iheight,1] «- repicí-1,256),times-iheight/2) 
img[iheight,1:iwidth] «- repiící256,-1),times-iwidth/2) 
img[1:iheight,iwidth] «- repí(cí(256,-1),times-iheight/2) 


# Set internal bounded area to the received tile 
img (2: ({theight4+1) ,2: (twidth+1)] «- tile 


* Apply multi-pass image operation 
for (i in 1:niters&) { 
print (paste {"Iteration",i}) 
img «- worker boundaryExchange (img) 
for (y in 2:theight+1) | 
For (x in 2:twidth+1) [ 
img[y,x] «- medianFilterPixel3 (y,x, img) 


# Send processed tile to Master on default comm 
tile <- img[2: (theight+1) ,2: (twidth+1)] 
mpi.send.Robj (tile,0,2,comm=1) 


HHAEHPAPHPAR HEATERS RASS PAA PAPERS RER PARA RR HRR RASS AREA 
# Master co-ordinates creation and operation of the grid, 
# but does not itself participate in any tile computation. 


# Launch the Rmpi based grid with (dimxdim) worker processes 
dim «- Dim; 
np «- dim * dim # number of MPI processes in grid 
mpi.spawn.Rslaves( 
Rscript-system.filei"workerdaemon.R", package-"Rmpi"), 
nslaves-np) 


# Send all Master defined globals/functions to Workers 


mpi.bcast.Robj]2slave(all-TRUE) 


# Map grid co-ords to cluster rank assignment of the Workers 

map «- mpi.remote.execí(worker initSpatialGrid(),din, 
simplify-FALSE,comm-1] 

workerRanks «- matrixí(-1,nrow-dim,ncol-dim) 


PROKAS: 


for (p in 1:length(map)) [| 
y <- map[[p]] [I[11] 
x <- map[[p]] [[2]] 
rank «- map[[p]][[3]] 
print (pasted ("Map ",p,": (",y,",",x,") => ",rank)] 
workerRanks [y+1,x+1] <- rank 


# We create large B/W image array with values in range 101-111 

height <- Height; width <- Width; 

imagel <- matrix (sample(101:111, height*width, replace=TRUE) ， 
height,width) 

# We add a bit of white saturation noise (pixel value=255) 

imagel [height /6,width/6] <- 255 

imagel[height/5,width/5] <- 255 

imagel[height/4,width/4] «- 255 

imagel[height/3,width/3] «- 255 

imagel[height/2.1,width/2.1] «- 255 

imagel[height/1.1,width/1.1] «- 255 

imagel[height/1.2,width/1.2] «- 255 

imagel[height/1.3,width/1.3] «- 255 

imagel[height/1.4,width/1.4] «- 255 

imagel[height/1.5,width/1.5] «- 255 


# Tell the workers to process the image (3 pass MedianFilter) 

# The Workers first wait to receive their local tile from the 

i Master,then do their multi-pass image processing, then finally # 
send their processed tiles back to the Master. 
mpi.bcast.cmd(worker gridApplyMedianFilter(3)] 

Start «- proc.time() 


4 We split the image into non-overlapping square grid tiles 


# and distribute one per Worker 
twidth «- width/dim # tile width 
theight «- height/dim # tile height 


for (ty in 0:(dim-1)) ( # bottom-left to top-right 


Sy «- 


(ty * theight) +1 


for (tx in 0:(dim-1)) { 
sx «- (tx * twidth) +1 
tile <- imagel[sy: (sy+theight-1),sx: (sx+twidth-1) ] 


# Send tile to the appropriate Worker 


worker <- workerRanks [ty+1,tx+1] 
mpi.send.Robj (tile, worker,1,comm=1) 


print (paste0 ("Sent tile to ", worker, 


" y=",sy,"-",sy+theight-1," x=",sx,"-",sx+twidth-1) ) 


# Create processed output image, initially blank 
image2 <- matrix(0L,nrow=height,ncol=width) 


# Master receives output tiles in sequence and unpacks 
# each into its correct place to form the output image 
for (ty in 0:(dim-1)) { # bottom-left to top-right 
Sy <- (ty * theight) +1 
for (tx in 0:(dim-1)) { 
SX <- (tx * twidth) +1 
# Receive tile from the appropriate Worker 
worker <- workerRanks [ty+1,tx+1] 
tile <- mpi.recv.Robj (worker, 2,comm=1) 
print (paste0 ("Received tile from ", worker, 
" y=",sy,"-",sy+theight-1," x=",sx,"-",sx+twidth-1) ) 
image2 [sy: (sy+theight-1),sx: (sx+twidth-1)] <- tile 


# Ta da! 

Finish <- proc.time() 

print (paste("Image size:",Height,"x",Width," processed 
with" ,np, "Workers in", Finish[3]-Start[3],"elapsed seconds") ) 
# Saturated image=255 

print (paste ("Noisy image max pixel value",max(imagel1) ) ) 

# MedianFiltered image=111 

print (paste("Clean image max pixel value",max(image2) ) ) 


mpi.close.Rslaves () 
性 能 


下 面 是 在 四 核 苹果 笔记 本 电脑 上 运行 这 个 程序 的 一 些 样 本 输出 ， 其 中 Dim 设 置 为 1， 即 ， 一 个 MPI 进 程 (加 上 一 个 主 进程 ) 一 个 网 格 ， 将 Dim 设 置 为 2 以 串 行 方式 有 效 
地 运行 ， 也 就 是 说 ，4 个 MPI 进 程 (加 上 一 个 主 进程 ) 一 个 网 格 : 


[1] "Map 1: (0,0) => 1" 
[1] "Sent tile to 1 y=1-200 x=1-200" 
[1] "Received tile from 1 y=1-200 x=1-200" 


[1] "Image size: 200 x 200 processed with 1 Workers in 29.485 elapsed 
seconds" 


[1] "Noisy image max pixel value 255" 


[1] "Clean image max pixel value 111" 


[I1] "Map 1: (0,0) x» I? 
[1] "Map 2: (0,1) »» 2" 
[1] "Map 3: (1,0) => 3* 


[1] "Map 4: (1,1) => 4" 

[1] "Sent tile to 1 y-1-100 x-1-100" 

[1] "Sent tile to 2 y-1-100 x-101-200" 

[1] "Sent tile to 3 y=101-200 x=1-100" 

[1] "Sent tile to 4 y-101-200 x-101-200" 

[1] "Received tile from 1 y=1-100 x=1-100" 

[1] "Received tile from 2 y=1-100 x=101-200" 
[1] "Received tile from 3 y=101-200 x=1-100" 
[1] "Received tile from 4 y=101-200 x=101-200" 


[1] "Image size: 200 x 200 processed with 4 Workers in 4.786 elapsed 
seconds" 


[1] "Noisy image max pixel value 255" 
[1] "Clean image max pixel value 111" 


我 们 总 是 需要 多 次 运行 测试 来 保证 我 们 能 识别 出 影响 时 序 图 的 任何 其 他 系统 资源 的 效果 。 然 而 ， 对 空间 /本 地 化 图 像 /矩阵 运算 ， 比 较 给 定 的 运行 时 间 ， 清 楚 地 说 明了 
网 格 运算 是 如 何 有 效 。 


3.2 ”检查 和 管理 通信 


对 于 R 中 执行 的 大 部 分 类 型 的 并 行 算法 ， 其 主要 在 于 统计 数值 编程 而 不 是 更 多 基于 符号 的 处 理 或 以 更 多 可 预测 的 通信 模式 执行 独特 的 系统 构架 ， 下 面 的 “高 级 ”API 调 
用 不 经 常 使 用 。 不 过 ， 它 们 使 MPI 进 程 能 够 处 理 带 外 数据 通信 ， 并 且 当 执行 其 他 程序 时 ， 可 以 避免 等 待 不 必要 的 通信 完成 。 所 以 ， 如 果 你 的 环境 许可 ， 可 以 更 有 效 地 利用 
它们 。 例 如 ， 在 一 个 长 时 间 运 行 的 计算 中 ， 可 以 在 连续 迭代 之 间 插 入 通信 。 


下 表 包 含 了 用 于 检索 已 完成 通信 的 信息 的 MPI-Probe、 检 查 通信 完成 的 MPI-Test， 以 及 可 以 撤回 一 个 未 完成 通信 的 MPI-Cancel。 


检查 / 管理 通信 一 一 MPI-Probe 


MPI Probe (MPI Ref: p.64 probe (rank.srce, mpi.probe (source, 


source, tag, comm, tag, comm-1, tag, comm-1, 


flag, status) status=0) status=0) 


(5E) 
检查 /管理 通信 一 一 MPI-Probe 
MFI API 调用 pbdMPI % £rys A Rmpi 等 价 调 用 
3 SELH ; iprobe (rank.srce, mpi .iprobe (source, 
MPI Iprobe (MPI Ref: p.65 tag, comm-l, tag, comm-l, 
Source, tag, comm, Status=0) Status=) 
flag, status) 38 ACEH : 3t ACHE : 


anysource {} mpi.any.source() 


anytag(] mpi.any.tag() 


MPI-Probe EW k Hirth iil ae eee eee AEE. 通配符 也 可 用 于 匹配 任意 的 
发 送 者 和 标签 。 这 使 你 可 以 检查 传人 通信 ， 制 订 细 节 ， 然 后 做 出 具体 的 MEI Recv 来 完成 通信 。 在 这 种 行为 
模式 下 。 程 序 可 以 动态 啊 应 传 和 消息， 而 不 是 用 显 式 的 通信 模式 而 编码 。 

然而 ，MPI-Probe 基 阻 塞 操作 ， 因 此 ， 直 到 出 现 匹 配 的 通信 ， 它 才能 返回 一 一 必须 已 经 发 送 了 一 条 合格 
HE ER. 

5—1 iH. MPI Iprobe 是 无 阻塞 的 ， 国 此 ， 它 和 不 会 等 竺 寻找 匹配 的 通信 ， 人 得 它 可 以 用 于 确定 一 个 匹配 的 
通信 是否 挂 起 ， 妈 ,等 待 在 特定 时 刻 的 时 间 传 送 缚 作为 接收 端的 调用 者 。 

示例 : 

下 面 的 pbdMPI 例子 说 明了 一 个 通配符 在 接收 端 等 待 ， 直 到 有 来 自 默 认 通 六 子 上 的 具有 任何 标签 的 任何 排 
名 的 传人 人 信息， 在 默认 状态 句柄 中 返回 它 的 详细 信息 ， 


# Wait for any incoming message 

probe (anysource (),anytag(}) 

# Retrieve vector with sender and tag of incoming message 
st e- get.sourcetag(o) 

# Selectively complete the pending communication 

obj «- recvirank.srce-st[11,st[21) 


下 面 的 Ropi AFER T {EH MPI Iprobe 定期 检测 后 台 工 作 的 选 代 之 则 的 任何 传人 信和 旺 (这 里 假 记 为 束 
Xs] at ): 


# Computation is in the form of a series of subtasks 
for (iter in 1:N) | 
# Check if a message is pending delivery to this process 
if (mpi.iprobe(mpi.anysource(),mpi.anytag())) | 
st <- mpi.get.sourcetagí(0) 4 Default status: Who from? 
count <- mpi.get.count (0) 4$ How many integers? 
datalIn <- vector (mode-"inLteger",length-count] 
# receive the pending message with correct size buffer 
mpi.recvídatalIn,l,st[1],st[21]?) 
# process the message 


} 


# Continue to do background computational tasks 
dolteration {iter} 


| 


实际 上 ， 你 可 能 想 要 用 一 种 与 此 相 比 更 加 结构 化 、 更 工程 屁 的 样式 来 处 理 带 外 数据 通信 一 一 前 面 的 侧 子 上 
在 解释 如 何 使 用 MFI Iprobe EMIT hy API 调用 。 


检查 | 管理 通信 一 一 MPI_Status 


MPI API 调用 pbdMPI 等 价 调用 Rmpi 等 价 调 用 
MPI Status (MPI get. s0urcetag [ mpi.qget.sourcetag( 
Ref: p.310) status status) 
MPI SOURCE j mpi.ger.count( 
MPI TAG Status 
MPI Get Count { i 


Status, type, count) 


MPI Status Xd EX T OG RMN. 在 及 中 ,可 以 用 [mpi.]get.sourcetag (status) M 
特定 status Wm BLIE BLA IK HH BS. Rmpi RPA mpi.get.count (status) 用 于 确定 挂 
AE Piso Te, EHEER’ CSE ei dg fe i f n] LUA T Bf n] REPE ACER T 
R. $35 MPI Probe MS uum. 


检查 | 管理 通信 一 一 MPI_Test 
MPI API 调用 pbdMPI 等 价 调 用 Rmpi 等 价 调 用 
MPI Test (MPI Ref: p.54 没有 实现 moi.test (request, 


request, flag, status) 
MPI Testall (MPI Ref p.60 
flag, count, requests, 


status-ü) 

ia]; flag (TRUE/FALSE} 
mpi.testall (count) 
返回 ; flag (TRUE/FALSE) 
mpi .testany (count, 


statuses) 

MPI Testany (MPI Ref: p.58 
flag, Count, requests, index, WStatus=0) 

返回 :; list (index, flag) 
mpi .testsome (count) 


status} 
MFI Testsome (MPI Ref: p.61 
count, Fequests, count, 返回 ; list (count, indices []) 


indices, tatuses) 


显而易见 ， 只 有 Rmpi HT MPI API 的 这 方面 。MPI Test £M EE MPI Wait (S392) HEH 
Ek, MPI Test 的 整个 系列 在 行为 上 与 它们 的 MPI Wait 同名 的 事物 相似 。 所 以 ， 记 性 这 一 点 ， 我 们 学 
ee he 

mpi.test() : xx TH SUB S E IPREXE EGER] E DEBE HE Ro Hr AU n T i sd P) OCEH SE ix Hd RANGE. I 
mpi.test1) 返回 TRUE H, 引用 的 status 句柄 会 提供 已 结束 通信 的 详细 信息 。 

mpi.testall(): 这 个 函数 测试 所 有 未 完成 的 。 目 前 未 完成 的 通信 来 确定 它们 是 和 理 已 经 结束 。 注 意 , 所 
有 (all) 指 的 是 Repi 请 求 句 柄 内 部 保存 的 数组 ,直到 最 太 值 达到 用 户 提 供 的 count 套数 。 人 记得 Rmpi 请 
Kn) A BP |. APA OFT eS. BITE (count) 范围 内 的 任何 通信 还 没有 完成 ， 则 该 
pS HER IS FALSE. 

mpi.testany(): 这 个 函数 通过 扫 撒 (但 不 是 等 待 ) 目前 未 完成 的 无 图 塞 send/recvas 提供 的 第 一 个 
count 进行 检测 ， 并 设置 提供 的 status 句柄 使 得 你 能 够 检查 这 个 通信 的 信息 (用 MPI Probe 函数 )。 

Mpi.testsome() : 该 函数 检查 未 完成 通信 提供 的 count， 并 返回 请 求 数量 的 列表 和 已 结束 通信 的 请 求 
^ En pe dit 


检查 | 管理 通信 一 一 MPI Cancel 


MPI API 调用 pbdMPI SE fft FH Rmpi 等 价 调用 


MPI Cancel (MPI Ref: p.72 没有 实现 mpi.cancel (request) 
request 


) 


正如 其 名 所 示 ，MPI_cancel 可 以 用 于 撤销 当前 未 结束 的 无 阻塞 发 送 和 接收 操作 。 本 质 上 ， 你 不 可 能 知 
道 操作 是 否 成 功 撤销 : 按照 ampi 揭露 的 受 限 的 API， 因 为 撤销 本 身 只 在 调用 进程 的 范围 内 起 作用 。 无 论 如 
何 ， 你 必须 随后 在 已 撤销 的 请 求 句 柄 上 调用 MPI_wait (或 者 重复 调用 MEI_Test， 直 至 它 成 功 )， 以 便 在 底 
层 MPI 子 系统 中 的 内 部 资源 可 以 正确 地 释放 。 关 于 mpr cancel 使 用 的 程序 逻辑 难以 正确 实施 。 在 典型 的 
R 程序 中 ， 限 制 使 用 Mer cancel 使 用 有 限 。 


3.3 lapply () 的 函数 变 体 


SI 
$ 
H! 
Di 
Ul 


最 后 ， 为 了 结束 我 们 的 MPl 之 旅 ， 某 种 意义 上 我 们 几乎 完成 了 整个 循环 。 正 如 在 第 1 章 中 所 述 ，R 的 核心 parallel 包 提供 了 lapply() 的 具体 版 本 ， 使 它 很 容 
一 个 函数 ，Rmpi 和 pbdMPI 也 提供 了 它们 自己 的 lapply () 变 体 。 


parLapply () with Rmpi 


这 里 我 们 回顾 与 MPI 共 同 使 用 的 parLapply () ($8198) 的 基本 操作 。 我 们 暗示 MPI 集 群 可 以 和 parLapply () 一 起 使 用 ， 这 的 确 可 以 通过 引入 一 个 额外 的 称 为 snow 
包 实 现 ，snow 是 简单 的 工作 站 网 络 (Simple Network Of Workstation, SNOW) 。 我 们 需要 做 的 束 是 从 CRAN 安 准 snow 包 ， 按 正确 的 顺序 凌 载 销 数 库 ， 使 用 Rmpi 生 
成 集群 (注意 pbdMPI 与 parLapply () PRE) 。 


> library ("snow") 

> library ("Rmpi") 

> library ("parallel") 

Attaching package: 'parallel' 

The following objects are masked from 'package:snow': 
clusterApply, clusterApplyLB, clusterCall, clusterEvalQ, 


> cl «- makeCluster(detectCores(), type="MPI") 


V 


parLapply(...) # apply parallelized function 
» stopCluster(cl) 


» mpi.exit() 


当然 ， 你 可 以 使 用 Rmpi 生 成 底层 集群 的 事实 ， 意 味 着 你 可 以 运行 它们 包含 Rmpi 调 用 的 并 行 函 数 ， 比 如 集体 通信 操作 。 


正如 其 名 ，SNOW 也 可 以 用 于 利用 网 络 计算 机 的 不 同 集合 ， 这 些 计算 机 可 以 是 完全 不 同 的 机 器 ， 例 如 ， 位 于 多 家 公司 的 笔记 本 电脑 、 台 式 计 算 机 和 服务 器 的 混合 (该 
方面 的 更 多 信息 可 以 参考 下 面 的 “让 我 们 开始 SNOW 吧 ! "), 


让 我 们 开始 SNOWI! 


没有 什么 能 阻止 你 使 用 SNOW 本 身 。Parallel 包 有 效 地 涵盖 了 SNOW 的 函数 功能 ， 包 括 SNOW 在 运行 于 多 种 操作 系统 的 多 个 异 构 网 络 机 器 上 运行 的 能 力 。 为 此 ，SNOW 


需要 使 用 套 接 字 ， 套 接 字 是 内 置 的 ， 由 集群 type="SOCK" 设 置 。 或 者 ， 可 以 使 用 nws 包 ， 它 管理 NetWorkSpaces (网 络 空 间 ) 服务 器 并 可 以 从 CRAN 下 载 。 


对 于 Rnws 包 ， 可 以 在 下 面 的 链接 下 载 : 
https://cran.r-project.org/web/packages/nws. 


无 论 是 SOCK 还 是 NWS， 都 必须 适当 地 建立 网 络 中 的 各 种 操作 系统 。 尽 管 SOCK 对 软件 没有 额外 的 要 求 ,但 是 最 简单 形式 的 NWS 要 求 用 超 先 的 计算 机 (lead computer) 


运行 R 脚 本 ， 该 脚本 调用 patApply () 的 、 一 个 运行 的 NetWotkSpaces 服 务 器 〈 用 Python 编写 的 ) 以 及 在 网 络 中 的 所 有 其 他 计算 机 中 安装 了 nws 程 序 包 的 R 软 件 。 
下 面 链接 可 用 于 下 载 NetWorkSpaces 服 务 器 : 


http://nws-r.sourceforge.net/. 


为 了 便于 使 用 ， 配 置 的 所 有 其 他 方面 ， 比 如 目录 路 径 、R 的 版 本 等 ， 应 该 是 所 有 计算 机 中 常见 的 ， 与 计算 机 运行 的 操作 系统 无 关 ， 虽 然 如 果 所 有 的 计算 机 都 运行 某 个 
UNIX 的 变 体 ， 则 配置 会 更 简单 。 那 么 这 需要 提供 一 个 网 络 主机 的 列表 ， 如 果 本 地 DNS 主机 名 不 可 解析 时 ， 它 们 可 以 当 作 IP 地 址 ， 因 为 计算 机 的 设置 包含 在 makeCluster () 
的 访问 中 。 例 如 ， 对 于 一 个 有 3 个 主机 的 集群 ， 可 以 提供 以 下 列表 : 


> hosts <- c(list(host="charlie"), 
list (host="192.168.9.4"), list(host="f£red") ) 


> cl <- makeCluster(hosts, type="SOCK") # or type="NWS" 


由 于 所 有 并 行进 程 在 完全 独立 的 计算 机 上 运行 ， 所 以 在 程序 终端 上 调用 stopCluster () 非常 重要 ， 否 则 ， 离 群 进 程 将 被 悬挂 ， 并 通过 记录 到 每 台独 3 


人 工 清 理 。 
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请 从 下 面 的 链接 参考 snow 包 手册 ， 获 取 更 多 信息 : 


https://cran.r-project.org/web/packages/snow/snow. pdf. 
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在 本 章 中 ， 我 们 通过 将 消息 传递 应 用 于 基于 网 格 的 并 行 性 ， 探 讨 了 消息 传递 更 高 级 的 方面 ， 包 括 数据 分 割 和 空间 运算 的 分 布 、 非 阻塞 通信 的 使 用 、MPI 进 程 之 间 的 本 
地 化 通信 模式 ， 以 及 如 何 将 SPMD 风 格 的 网 格 映 射 到 标准 Rmpi 主 /工作 者 集群 。 虽 然 在 图 像 处 理 中 的 说 明 性 例子 似乎 不 是 R 编 程 最 自然 的 根 目 录 ， 但 本 例 所 获得 的 知识 将 适 
用 于 广泛 的 矩阵 迭代 算法 。 


我 们 也 详细 了 解 了 MPI， 通 过 阐述 面向 检查 和 管理 未 完成 通信 的 其 他 API 例 程 ， 包括 MPI_Probe 和 MPI_Test。 
本 章 结束 时 ， 回 顾 了 如 何 结合 parLapply () 使 用 Rmpi， 并 提 到 了 如 何在 一 个 简单 的 工作 站 网 络 上 运行 MPI 集 群 。 


本 章 中 我 们 构建 的 基于 网 格 的 处 理 框 架 适 用 于 范围 广泛 的 图 像 处 理 算 子 ， 特 别 是 如 果 我 们 要 筷 结 代码 以 处 理 更 大 尺寸 的 局 部 像素 窗口 。 该 代码 非常 适合 这 种 进一步 的 
发 展 ， 并 扩展 到 处 理 任意 大 小 的 和 非 正 方形 的 图 像 。 杀 爱 的 读者 ， 所 有 这 一 切 ， 我 将 留 给 你 作为 一 个 锻炼 。 


在 本 章 中 ， 我 们 的 重点 是 使 用 Rmpi 实 现 基 于 网 格 的 图 像 /矩阵 的 并 行 处 理 。 在 下 一 章 中 ， 我 们 的 重点 转向 将 pbdmpi 应 用 于 超级 计算 机 基因 组 分 析 的 最 终 可 扩展 性 ， 
所 以 系 好 你 的 安全 市 为 了 并 行 处 理 中 的 最 大 加 速 ! 


第 4 章 ” 开 友 SPRINT 一 超级 计算 机 的 基于 MPI 的 R 包 


在 本 章 中 ， 我 们 将 学 习 如 何 使 用 一 种 叫 作 消 息 传递 的 并 行 性 的 形式 ， 用 广泛 采用 的 消息 传递 接口 (MPI) 标准 编写 ， 以 及 如 何 直接 从 R 脚 本 利用 其 他 编程 语言 编写 的 
基于 MPI 的 并 行程 序 。 


我 们 将 从 一 个 简单 的 “Hello World”MPI 程 序 开始 ， 并 将 其 转换 成 一 个 R 库 包 。 这 将 演示 如 何 采 用 现 有 的 用 人 编写 的 MPI 代 码 ， 并 使 它 直接 从 R 中 调用 。 


我 们 将 深入 研究 基于 MPI 的 R 包 的 体系 结构 ， 通 常 称 为 简单 的 平行 R 接 口 (SPRINT) 。SPRINT 提 供 了 一 套 MPI 并 行程 序 ， 特 别 应 用 于 生物 信息 学 和 生命 科学 的 基因 组 
分 析 。 我 们 将 展示 如 何 通过 在 包 中 添加 你 自己 的 并 行 功 能 进一步 扩大 它 的 效用 。 


最 后 ， 我 们 将 探讨 运行 在 一 个 大 规模 ARCHER 上 的 基于 SPRINT 的 基因 组 分 析 程 序 的 性 能 特征 ，ARCHER 是 英国 最 大 的 学 术 超 级 计算 机 。 


S uti ds 


在 本 章 中 ，MPI 的 例子 是 运行 在 苹果 Mac Pro 笔 记 本 电脑 上 ， 它 具有 2.4GHz 的 英特尔 酷 害 i5 处 理 器 、8GB 的 内 存 、OS X10.9.53&4E AH. MPI mpich-3.1.2. C clang 
600.0.57 和 R 3.1.1。 对 于 基因 组 学 分 析 案 例 研 究 ， 例 子 运 行 在 ARCHER 上 。 在 写本 书 时 (2015 年 3 月 ) ，ARCHER 计 算 节 点 包含 两 个 2.7GHz、12 核 E5-2697V2Ivy 桥 系列 处 理 
每 个 处 理 器 中 的 每 个 核 可 以 支持 两 个 硬件 线程 ， 也 称 为 超 线程 。 在 节点 内 ， 这 两 个 处 理 器 与 两 个 快速 通道 互联 链 路 相连 接 。 每 个 节点 都 有 一 个 64GB 内 存 。ARCHER 有 


3n 
[9] 


4920 个 计算 节点 。ARCHER 上 使 用 的 软件 版 本 是 : MPI cray-mpich 7.1.1. C gec 4.9.2 和 R 3.1.0. 


4.1 天 于 ARCHER 


ARCHER 有 100000 多 个 核心 (http://www.archer.ac.uk/aboutarcher/) 。 图 4-1 展 示 了 组 成 ARCHER 超 级 计算 机 的 一 些 柜子 ， 它 占据 了 专用 设施 的 整个 专用 空间 。 


图 4-1 ”爱丁堡 并 行 计算 中 心 的 ARCHER 超 级 计算 机 


图 4-2 襄 明了 如 何 穿 过 多 个 单独 的 柜子 来 组 织 这 些 数 以 万 计 的 核心 。 请 注意 每 个 基于 单个 严 特 尔 的 计算 节点 处 理 器 有 2x12 个 核心 和 64Gb 的 内 存 。 
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图 4-2 ”一 个 ARCHER 柜 子 的 组 成 


4.2 ”从 R 中 调用 MPI 代 码 


让 我 们 看 看 如 何 从 R 中 调用 现 有 的 MPI C 代 码 。 下 面 是 一 个 例子 ， 当 你 已 经 有 一 些 想 从 R 中 调用 的 C 或 C++MPI 代 码 时 ， 这 个 例子 将 有 所 帮助 。 我 们 将 看 一 个 简单 的 方 
法 ， 但 请 注意 ， 有 很 多 方法 可 以 做 到 这 一 点 。 从 R 中 调用 C 或 其 他 语言 代码 的 权威 指南 是 《Writing R Extensions》 手 册 ， 可 以 从 http://cran.r- 
project.org/doc/manuals/r-release/R-exts.html 上 的 CRAN 中 找到 。 


如 果 你 正在 编写 想 要 从 Scratch 中 从 R 中 调用 的 MPI C 代 码 ， 那 么 你 应 该 考虑 使 用 Rcpp RA, (参见 http://cran.r-project.org/web/packages/Rcpp/index.html) 。 这 
个 包 为 R 数 据 类 型 提供 了 C++ 包 闭 器 ， 从 而 允许 C++ 和 R 之 间 的 简单 数据 转换 。 它 也 为 你 管理 内 存 ， 并 提供 其 他 的 帮助 方法 。 


4.2.1 MPI Hello World 


让 我 们 先 从 一 个 简单 的 “Hello World" MPI C 程 序 开 始 ， 其 中 每 个 单独 的 进程 输出 hello 和 它 的 MPI 排 名 号 。 


#include <stdio.h> 
#include <mpi.h> 


int hello(void) ; 


int main(void) 


{ 
return hello(); 

int hello(void) 

{ 
int rank, size; 
// Standard MPI initialisation 
MPI Init (NULL, NULL) ; 
MPI Comm size(MPI COMM WORLD, &size) ; 
MPI Comm rank(MPI COMM WORLD, &rank) ; 
// Prints out hello from each process 
printf ("Hello from rank $d out of %d\n", rank, size); 
MPI Finalize(); 
return O0; 

} 


前 面 的 代码 包含 一 个 遂 数 Hello () : 

: 初始 化 MPI。 

- 通过 调用 MPI_Comm_size () ,在 已 经 初始 化 的 默认 MPI_COMM_WORLD 通 信子 中 获得 大 小 ( 即 进程 的 数量 ) 。 

: 通过 调用 MPI_Comm rank () ， 在 这 个 MPI_COMM_WORLD 通 信子 中 获得 调用 进程 的 排名 。 

: 输出 hello 和 调用 进程 的 排名 。 

. 最 后 ， 调 用 MPI_Finalize () 终止 进程 。 

假设 你 以 前 已 经 安 法 了 MPI 的 mpich-3.1.2 版 本 ， 你 可 以 将 该 程序 保存 在 一 个 名 字 为 mpihello.c 的 文件 中 ， 然 后 从 操作 系统 命令 行 编译 并 运行 写 (使 用 4 个 MPI 进 


f=) ， 如 下 所 示 : 


$ mpicc -o mpihello.o mpihello.c 
$ mpiexec -n 4 ./mpihello.o 

你 将 看 到 以 下 输出 (不 一 定 是 按 这 个 顺序 ) : 
Hello from rank 0 out of 4 
Hello from rank 1 out of 4 


Hello from rank 2 out of 4 


Hello from rank 3 out of 4 


4.2.2 ”从 R 中 调用 (C 


为 了 从 R 中 调用 C 程 序 ， 你 必须 首先 建立 一 个 共享 对 象 ， 这 个 共享 对 象 包含 你 想 调 用 已 编译 的 C 代 码 。 使 用 R dyn.load 函 数 必须 将 这 个 共享 对 象 加 载 到 你 的 R 会 话 中 。 
然后 ， 你 可 以 使 用 R 国 数 .Call 从 一 个 R 脚 本 调用 已 编译 的 C 代 码 。 为 了 说 明 如 何 实现 这 一 点 ， 我 们 建立 一 个 MPI Hello World 程 序 的 共享 对 象 ， 然 后 在 R 中 调用 它 。 


1. 修 改 C 代 码 使 已 可 以 从 R 中 调用 


首先 ， 让 我 们 对 C 代 码 本 身 进行 必要 的 更 改 ， 使 它 可 以 从 R 中 调用 。 突 出 显示 这 些 更 改 的 代码 如 下 所 示 : 


#include <mpi.h> 
#include <R.h> 

#include <Rinternals.h> 
#include <Rdefines.h> 


SEXP hello (void); 


SEXP hello (void) 


{ 


int rank, size; 


MPI Init (NULL, NULL); 
MPI Comm size(MPI COMM WORLD, &size); 
MPI Comm rank(MPI COMM WORLD, &rank); 


Rprintf("Hello from rank %d out of %d\n", rank, size); 


MPI Finalize(); 


// Create an R integer data type with value zero 


SEXP result - PROTECT(result - NEW INTEGER(1)); 
INTEGER(result)[0] = 0; 

UNPROTECT (1) ; 

return result; 


j 


正如 在 前 面 的 代码 中 你 所 看 到 的 ， 必 须 包 括 必要 的 R 头 文件 ， 并 已 将 main 程 序 移 除 。 各 种 头 文件 和 它们 的 用 途 在 《Writing R Extensions》 手 册 中 有 详细 解释 ， 但 为 
方便 起 见 ， 这 里 有 一 个 简短 的 描述 。R.h 是 一 个 头 文件 ， 它 包括 许多 其 他 必要 的 文件 ，Rinternals.h 包 含 使 用 R 的 内 部 结构 的 定义 ， 最 后 ，Rdefines.h 包 含 各 种 有 用 的 宏 。 


现在 ，hello () 尔 数 返回 SEXP 而 不 是 int。 正 如 在 《Writing R Extensions》 手 册 中 所 陈述 的 ，SEXP 是 一 个 指向 结构 的 指针 ， 该 结构 可 以 处 理 所 有 常见 的 R 的 类 型 对 
象 ， 即 函数 、 各 种 模式 的 向 量 、 环 境 、 语 言 对 象 等 。 

当 hello () 国 数 在 R.call () 函数 中 调用 时 ， 它 必须 返回 一 个 SEXP， 这 有 两 个 原因 。 第 一 个 原因 ，R 要 求 用 这 种 方法 调用 的 任何 C 代 码 必 须 返 回 一 个 值 。 这 意味 着 即使 
是 简单 的 例子 也 必须 向 R 返 回 一 些 东 西 。 第 二 个 原因 ，R 是 用 C 实 现 的 ， 并 且 所 有 的 R 数 据 类 型 在 C 中 可 以 表示 为 SEXP 数 据 类 型 。 


在 hello () 函数 内 ，MPI 调 用 是 不 变 的 ， 并 且 printf () 已 经 被 Rprintf () 取代 。 正 如 在 《Writing R Extensions》 手 册 中 所 解释 的 ， 不 管 是 GUI 控 制 台 、 文 件 或 者 
重 定向 ，Rprintf () 保证 在 R 中 有 输出 。 它 的 使 用 方法 与 printf () 类 似 。 更 重要 的 是 ， 当 使 用 并 行 计算 时 ,使 用 Rprintf () 能 够 确保 输出 被 适当 地 重 定向 。 


运行 MPI_Finalize () 之 后 ， 我 们 生成 了 hello () 的 值 以 便 返 回 到 R。 这 是 一 个 SEXP 指 针 (result) ， 它 指向 一 个 R 整 数 数据 类 型 。 在 C 中 创建 的 R 对 象 有 通过 R 自 动 收 
集 垃圾 的 风险 。 因 此 ， 我 们 通过 调用 PROTECT () 宏 来 保护 result 指 向 的 对 象 。 我 们 现在 可 以 设置 result 为 我 们 希望 hello () 函数 返回 给 R 的 值 ， 在 这 种 情形 下 是 0。 在 返 
回 这 个 值 之 前 ， 我 们 必须 使 用 UNPROTECT () 宏 来 清除 我 们 以 前 保护 免 受 R 垃 圾 收集 的 变量 的 栈 。 然 后 ， 我 们 可 以 返回 result。 这 里 PROTECT () /UNPROTECT () 调 
用 并 不 是 严格 必需 的 ， 因 为 在 调用 之 间 没 有 R 代 码 或 安 (这 可 能 触 上 友 垃 圾 收集 ) 运行 。 这 里 给 出 了 一 个 PROTECT/UNPROTECT () 调用 的 例子 。 


将 修改 后 的 代码 保存 到 一 个 名 为 mpihello fromR.c 的 文件 中 。 


2. 编 译 MPI 代 码 为 一 个 共享 对 象 


既然 我 们 已 经 修改 了 我 们 的 C 代 码 ， 使 它 可 以 从 R 中 调用 ， 下 一 步 是 将 它 编译 为 可 以 加 载 到 R 的 R 共 享 对 象 库 。 为 此 ， 我 们 将 在 操作 系统 命令 行 中 使 用 标准 命令 R CMD 
SHLIB。 这 段 代 码 应 该 与 openMPI 或 MPI 的 mpich 实 现 一 起 运行 ， 但 如 果 openMPI 有 任何 问题， 那么 你 应 该 尝试 用 mpich 代 蔡 。 


记 住 ,我 们 的 MPI Hello World 示 例 的 修改 后 的 代码 保存 在 一 个 名 为 mpihello fromR.c 的 文件 中 。 我 们 编译 该 代码 并 通过 执行 以 下 操作 系统 命令 行使 它 成 为 一 个 R 共 
FRE: 


$ MAKEFLAGS="CC=mpicc" R CMD SHLIB -o mpihello fromR.so 
mpihello fromR.c --preclean 


因为 我 们 的 代码 包含 对 MPI 的 调用 ， 所 以 我 们 需要 用 编译 器 执行 R CMD SHLIB 并 且 在 前 面 的 代码 中 用 变量 MAKEFLAGS= “CC=mpicc” 设置 mpicc 而 不 是 cc。 在 操 
作 系 统 命 令 行 中 执行 前 面 的 代码 将 生成 一 个 名 为 mpihello fromR.so 的 文件 。 注 意 ， 在 微软 Windows 中 ， 需 要 产生 一 个 动态 链接 库 ， 所 以 ， 必 须 使 用 扩展 的 .dull 来 代 


蔡 .so。 
3. 从 R 中 调用 MPI Hello World 示 例 


这 是 最 后 一 步 。 为 了 从 R 中 调用 我 们 修改 后 的 MPI Hello 人 代码， 我们 现在 必须 将 包含 它 的 mpihello_ fromR.so 共 享 对 象 库 加 载 到 R 中 。 然 后 我 们 可 以 使 用 .Call 调 用 共享 
对 象 中 的 hello () 函数 。 以 下 是 将 共享 对 象 加 载 到 R 库 中 的 R 代 码 ， 然 后 调用 我 们 修改 的 hello () 函数 : 


dyn.load("mpihello fromR.so") 
.Call1 ("hello") 


FEX PAT RAS REI TS 73mpihello.RBJ sr FR, HARRERA LITTE, AI TBI: 
$ mpiexec -n 4 R -f mpihello.R 


在 上 一 行 ，mpiexec-n 4 部 分 指定 4 个 要 实例 化 的 MPI 进 程 。R-f mpihello.R 指 定 R 文 件 mpihello.R 必 须 在 每 个 进程 中 执行 。 下 面 是 在 操作 系统 命令 行 中 执行 该 行 的 一 
些 输出 。 从 R 中 也 会 有 一 些 输 出 。 


Hello from rank 0 out of 4 
Hello from rank 1 out of 4 
Hello from rank 2 out of 4 


Hello from rank 3 out of 4 


所 以 现在 已 经 从 R 中 执行 了 MPI C 代 码 ， 你 已 经 学 会 了 如 何 编写 、 编 译 并 从 R 中 调用 MPI 代 码 (CSS) 。 


43 ”建立 一 个 MPI R 包 一 SPRINT 


现在 我 们 已 经 建立 了 一 个 R 共 享 对 象 库 ， 该 库 包含 可 以 从 R 调 用 的 MPI 人 代码， 下面 研究 如 何 创建 一 个 包含 大 量 R MPI 函 数 的 R 包 ， 每 个 函数 可 从 R 调 用 。 
由 于 各 种 原因 ， 构 建 一 个 包 是 有 用 的 ， 原 因 如 下 : 

- 可 维护 性 : 如 果 每 个 函数 都 有 自己 的 MPI 安 装 和 拆卸 ， 那 么 你 可 以 有 很 多 重复 的 代码 来 维护 。 

灵活 性 : 从 你 的 R 脚 本 中 调用 MPI， 可 以 根据 你 的 需要 很 容易 地 调用 多 个 不 同 的 MPI 使 能 函数 。 

. 有 效 性 : 如 果 每 个 函数 都 有 自己 的 单独 共享 对 象 库 ， 则 当 调 用 时 ， 它 们 会 通过 自己 的 MPI_Init/MPI_Finalize 阶 段 添加 到 运行 时 。 


SPRINT 包 为 R 提 供 了 一 套 可 以 利用 MPI 的 从 R 中 调用 的 并 行 国 数 。 在 下 面 几 节 中 ， 我 们 将 向 你 展示 如 何 将 自己 的 函数 添加 到 SPRINT 包 中 ， 但 是 首先 让 我 们 看 一 看 
SPRINT?3/ISBSJRUTERU E ze uS] LTERS. 


4.3.1 简单 的 并 行 R 接 口 (SPRINT) © 


许多 现 有 的 R 包 人 允许 开 友 人 员 或 有 足够 专业 知识 和 资源 的 当事人 利用 并 行 化 代码 来 解决 计算 问题 。R SPRINT 包 基于 不 同 的 哲学 。SPRINT 包 是 专 为 大 数据 处 理 而 设计 
的 ， 它 无 颖 地 利用 多 节点 和 多 核 计算 架构 ， 有 效 地 利用 磁盘 空间 作为 额外 的 核 外 内 存 器 。 专 家 已 经 开发 了 SPRINT 包 ， 并 且 针 对 剃 见 的 分 析 间 题 为 用 户 提 供 了 预先 构建 的 并 
行 解决 方案 。SPRINT 特 别 关 注解 决 那些 对 非 专 家 而 言 很 难 并 行 化 的 问题 。SPRINT 是 完全 开源 的 ， 并 且 有 经 验 的 用 户 可 以 利用 SPRINT 开 发 自己 的 并 行 功能 。SPRINT 团 队 
欢迎 更 广泛 的 团体 返回 这 个 项 目 做 贡献 。 


在 写本 书 时 ，SPRINT 的 最 新 版 本 为 v1.0.7， 可 以 从 CRAN 的 http://cran.r-project.org/web/packages/sprint/index.htmI 下 载 ， 也 可 以 从 SPRINT 团 队 的 网 
站 http://www.r-sprint.org/ 直 接 下 载 。 


在 R 脚 本 中 使 用 一 个 预先 构建 的 SPRINT 例 程 


SPRINT 包 含 一 个 名 为 ptest () 的 函数 ， 该 函数 相当 于 我 们 以 前 的 MPI Hello World 示 例 。 它 检查 SPRINT 包 是 否 已 经 通过 简单 地 输出 一 条 消息 识别 每 个 已 经 实例 化 的 
并 行进 程 已 经 正确 地 安 丢 。 


假设 PRINT 包 以 前 已 经 在 你 的 本 地 R 中 安 疼 ， 可 以 使 用 下 面 的 R 脚 本 示例 调用 ptest () 。 


library ("sprint") # load the sprint package 


ptest() 


pterminate() # terminate the parallel processes 


quit () 


这 个 脚本 中 的 pterminate () 函数 是 一 个 终止 所 有 并 行进 程 的 ?PRINT 函 数 。 这 些 脚本 内 部 调用 MPI_Finalize 来 天 闭 实 例 的 并 行进 程 。 所 有 的 SPRINT 使 能 脚本 要 求 在 
最 后 的 quit () 命令 之 前 被 调用 。 


如 果 这 个 R 脚 本 示例 存储 在 一 个 名 为 sprint_test.R 的 文件 ， 那 么 它 可 以 从 如 下 的 操作 系统 命令 行 中 运行 : 


$ mpiexec -n 5 R -f sprint test.R 


这 将 导致 以 下 输出 GE: 确切 的 顺序 可 能 不 同 ) : 
[1] "HELLO, FROM PROCESSOR: 0" 
[2] "HELLO, FROM PROCESSOR: 2" 
[3] "HELLO, FROM PROCESSOR: 1" 
[4] "HELLO, FROM PROCESSOR: 3" 
[5] "HELLO, FROM PROCESSOR: 4" 


4.3.2 SPRINT 包 的 体系 结构 


SPRINT 的 核心 是 一 个 MPI 线 束 ， 它 在 主 /工作 者 范式 中 管理 许多 进程 ， 既 可 以 给 它 分 配 不 同 的 任务 来 执行 ， 又 可 以 在 R 脚 本 的 连续 部 分 运行 时 将 它 置 于 睡眠 状态 。 将 你 
自己 的 并 行 MPI 函 数 添加 到 SPRINT 是 相对 简单 的 。SPRINT 在 R 和 C 中 实现 。 图 4-3 说 明了 SPRINT 如 何在 运行 时 使 用 主 / 工 作者 范式 。 让 我 们 来 解释 这 是 如 何 使 用 我 们 之 前 
包含 SPRINT ptest () 函数 的 R 脚 本 的 执行 案例 来 工作 的 。 


Master process Worker process | 


R Runtime R Runtime 
| | 
Load SPRINT Init Init, A Load SPRINT 
y | — — — m “4 
R script invokes MPI Runtime MPI Runtime 


Parallel execution 


SPRINT takes |. Broadcast function signature 性 一， Invoke SPRINT 


Iver execution —— | | | | oa function 
下 s“ af 
Results return to bbo g Compute function in parallel = — > eR 
' — Mn 
ShutdownR | » Broadcast shutdown 
EF EN Finalize = FRI 
Exit R 


图 4-3 ” 当 R 脚 本 使 用 SPRINT 时 ， 主 进程 和 工作 者 进程 之 间 的 执行 流 


当 在 操作 系统 命令 行 执行 以 下 命令 时 ， 这 导致 所 有 实例 化 程序 初始 化 R 运 行 时 环境 ， 如 图 4-3 所 示 。 
$ mpiexec -n 5 R -f sprint test.R 


然后 ， 每 个 进程 开始 执行 sprint_ test.R 脚 本 ， 脚 本 的 第 一 行 是 library ("sprint") 。 这 行 在 每 个 进程 中 载 入 SPRINT 包 ， 更 重要 的 是 ， 在 每 个 进程 中 初始 化 MPI 环 境 。 
此 时 ，SPRINT 使 用 每 个 进程 的 MPI 排 名 来 决定 一 个 进程 是 否 为 主 进 程 ， 或 者 它 是 否 为 一 个 工作 者 进程 。 如 果 将 一 个 进程 指定 为 一 个 工作 者 ， 则 它 有 效 地 处 于 一 个 等 待 状态 
直到 主 进程 发 送 一 个 命令 代码 。 与 此 同时 ， 主 进程 执 sprint test.R 脚 本 的 其 余部 分 。 


当主 进程 执行 SPRINT ptest () 函数 时 ， 这 产生 一 个 命令 代码 ， 它 代表 ptest () HŽ (BARSE) 从 主 进程 向 所 有 的 工作 者 进程 广播 。 然 后 ， 所 有 的 进程 可 以 参 
与 销 数 的 并 行 执行 ， 并 且 可 以 通过 MPI 相 互 作用 。 


在 R 内 存 空间 中 是 初始 化 MPI 的 事实 ( 即 在 R 脚 本 中 通过 library ( "sprint" ) 行 ) 意味 着 可 以 在 所 有 的 进程 中 访问 R 运 行 时 环境 。 这 人 允许 在 C 中 处 理 本 地 R 对 象 ， 最 重 
要 的 是 ， 它 意味 着 可 以 用 C 计 算 R 表 达 式 。 当 向 SPRINTT) 式 加 新 消 数 时 ， 该 特性 提供 了 灵活 性 一 这 意味 着 并 行 SPRINT 使 能 消 数 或 者 可 以 包含 一 个 完整 并 行 实现 的 水 数 ， 或 者 
可 以 利用 在 并 行 线 束 内 的 函数 的 现 有 捉 行 R 实 现 。 


在 所 有 的 计算 在 工作 者 进程 中 完成 后 ， 结 果 返 回 给 主 进程 ， 它 将 这 些 结果 返回 到 在 它 上 面 运行 的 R 环 境 。 工 作者 进程 返回 到 它们 的 等 待 状态 ， 主 进程 继续 执行 
sprint test.R 脚 本 的 剩余 部 分 。 


下 一 行 是 pterminate () 。 它 通过 将 合适 的 命令 代码 广播 给 所 有 的 工作 者 进程 来 关闭 MPI 环 境 ， 于 是 每 一 个 进程 调用 MPI_Finalize 并 终止 。 在 pter-minate () A, 
主 进程 也 调用 MPI_Finalize， 然 后 继续 执行 R 脚 本 的 剩余 部 分 。 


44 将 一 个 新 国 数 添 加 到 SPRINT 包 中 


现在 让 我 们 将 我 们 自己 的 函数 添加 到 3PRINT 包 中 。 这 个 新 函数 称 为 phello () 。 我 们 将 使 用 之 前 的 MPI Hello World 示 例 为 基础 。 这 将 包括 以 下 任务 : 
- 下 载 SPRINT 源 代码 。 
- 创建 R 存 根 文件 : 这 使 所 需 的 功能 可 以 在 主 进程 中 从 R 调 用 。 它 为 实现 该 功能 调用 接口 水 数 。 


+ 添加 接口 函数 : 接口 函数 是 R 存 根 的 C 等 价 函 数 。 这 也 在 主 进程 中 执行 。 它 负责 广播 工作 者 进程 中 要 执行 的 实现 函数 的 命令 代码 。 


` 添加 实现 函数 : 每 个 命令 代码 有 一 个 相应 的 实现 函数 。 在 收 到 命令 代码 后 ， 这 个 函数 在 工作 者 进程 中 执行 。 此 外 ， 它 也 在 主 进程 中 执行 。 


- 连接 存根 和 函数 : 更 新 相关 的 SPRINT 头 和 配置 文件 使 存根 、 接 口 和 实现 函数 正确 地 相互 作用 。 


4.4.1 下 载 SPRINT 源 代码 
首先 ， 我们 必须 下 载 SPRINT 源 代码 。 你 可 以 从 CRAN 网 站 http://cran.r-project.org/web/packages/sprint/index.html 上 下 载 最 新 版 本 的 SPRINT 源 代码 ， 也 可 以 从 
SPRINT 团 队 http://www.r-sprint.org/ 上 直接 下 载 。 
使 用 以 下 操作 系统 命令 下 载 并 解压 缩 源 代码 : 
$ Wget http://cran.r-project.org/src/contrib/sprint 1.0.7.tar.gz 
$ tar -xvf sprint 1.0.7.tar.gz 


解压 缩 的 9?PRINT 源 代码 有 以 下 的 目录 结构 : 


/sprint dir Contains configure scripts, etc 
|- inst Documentation and tests 
|- man R documentation 
|- R Contains the R stubs 
|- src Functions header files, Makefile and sprint 
itself. 
|- algorithms 
|- common Functions used by all of the sprint 
functions 
|- papply 
|- implementation 
|- interface 
|- pboot 
|- implementation 
|- interface 


|- on. All of the sprint functions have their own 


folder 
with implementation and interface sub- 


folders. 


|- tools 


44.2 ”在 R 中 创建 一 个 存根 一 phello.R 


这 个 存根 包含 一 个 用 尸 在 R 脚 本 中 调用 的 R 包 北 器 消 数 。 它 在 SPRINT 主 进程 中 执行 ， 并 且 它 在 相应 地 主 进程 中 使 用 R.Call () 馈 数 调用 MPI C 代 码 。 在 激活 MPI CRE 
之 前 ， 可 以 使 用 这 个 函数 对 参数 和 其 他 程序 内 存 管理 执行 完整 性 检验 。 


为 了 创建 这 个 存根 ， 让 我 们 在 SPRINT 源 代码 库 中 导航 到 R 目 录 。 
cd sprint/R 


现在 创建 一 个 名 为 phello.R 的 文件 。 在 文件 名 中 使 用 p 仅 仪 是 一 个 PRINT 


约定 以 帮助 区 分 这 个 实现 与 该 函数 的 任何 其 他 现 有 R 实 现 。 
以 下 是 phello.R 的 内 容 : 


phello <- function() 


{ 


return val <- .Call("phello") 
return (return_val) 


| 


在 前 面 的 代码 中 ， 定 义 了 R 遂 数 hello () 。 这 个 函数 包含 了 将 要 调用 C MPI 代 码 的 .Call ("phello*) 。 


注意 对 于 MPI Hello World 共 享 对 象 库 的 例子 ，phello.R 如 何不 同 于 初期 的 mpihello.R 文 件 。 这 有 以 下 内 容 : 


dyn.load("mpihello fromR.so") 
Call ("hello") 


使 用 SPRINT,， 调用 dyn.load () 来 加 载 共 享 对 象 并 不 是 必需 的 ， 因 为 正如 我 们 稍 后 将 看 到 的 ，C 代 码 将 编译 为 ?PRINT 包 的 一 部 分 ， 并 使 用 library ("sprint") 命令 加 
载 到 用 尸 的 R 脚 本 。 


4.4.3 ”添加 接口 函数 一 phello.c 


在 SPRINT 中 ， 接 口 浮 数 是 由 R 存 根 调用 的 C 遂 数 。 它 仅仅 由 SPRINT 主 进程 执行 。 接 口 消 数 的 功能 是 将 要 执行 的 并 行销 数 的 命令 代码 广播 给 SPRINT 工 作者 进程 。 广 播 
命令 代码 后 ， 接 口 尔 数 开始 在 主 进 程 中 自己 执行 ， 并 行 立 数 与 命令 代码 相关 联 。 与 它 所 有 反映 的 R 存 根 一 样 ， 接 口 消 数 可 以 执行 参数 检查 和 普通 内 存 管 理 。 


让 我 们 创建 对 应 phello.R 和 存根 的 接口 遂 数 。 按 照 接 下 来 的 命令 ， 首 先 ， 我 们 导航 到 sprint/src/algorithm 目 录 ， 这 里 我 们 创建 了 一 个 phello 目 录 。 在 这 个 phello 目 录 
中 ， 我 们 进一步 创建 了 两 个 目录 : implementation 目 录 和 inter-face 目 录 。 


cd sprint/src/algorithms 
mkdir phello 


mkdir phello/implementation 


Vr UV UV UV 


mkdir phello/interface 


在 interface 目 录 中 ， 我 们 创建 文件 phello.c 保 存 interface 函 数 。 在 SPRINT 中 ， 接 口 函 数 都 非常 相似 。 让 我 们 将 下 面 的 内 容 添加 到 phello.c: 


#include <Rdefines.h> 
include *../..7/../print.Hh" 
#include "../../../functions.h" 


extern int hello(int n, ...); 


/* ook ck ecc ck ek ck ck ck eoe ck ck oec ck KEKE ck ck ck ck occ ck oce ck ck ek ck oce ock occ ck ck oce ck ck oe ckock ck ockockock o ko koc ko ko ko kok ok 


* The stub for the R side of a very simple hello world command 
* Simply issues the command and returns 0 for successful * 


* completion of command or -1 for failure. 
* kkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkkk/ 


// Note that all data from R is of type SEXP. 
SEXP phello() 


{ 


SEXP result; 
int response, intCode; 
enum commandCodes commandCode; 


// Check MPI initialisation 
MPI Initialized(&response); 


if (response) { 
DEBUG ("MPI is init'ed in phelloWn"); 


} else { 
DEBUG("MPI is NOT init'ed in phello\n"); 


// return -1 if MPI is not initialised. 
PROTECT (result = NEW INTEGER(1)); 
INTEGER (result) [0] = -1; 

UNPROTECT (1) ; 

return result; 


// broadcast command to other processes 
commandCode = PHELLO; 

intCode = (int) commandCode; 

DEBUG ("commandCode in phello is %d Mn", intCode) ; 
MPI Bcast(&intCode, 1, MPI INT, 0, MPI COMM WORLD); 


// Call the command on this process too. 
response = hello(0); // We are passing no arguments. 
// If we wanted to pass 2 arguments, we'd write 

// response = hello(2, argl, arg2); 


// Convert result into an R datatype (SEXP) 
result = PROTECT (result = NEW _INTEGER(1)) ; 
INTEGER (result) [0] = response; 

UNPROTECT (1) ; 
return result; 


让 我 们 更 仔细 地 看 看 前 面 的 代码 。 
在 该 文件 的 顶部， 包含 大 量 的 头 文件 ， 并 且 hello () 函数 声明 为 外 部 的 ， 也 融 是 说 ， 在 连接 阶段 中 ， 它 将 在 编译 的 最 后 一 步 被 解析 。 


#include <Rdefines.h> 

RANCIMGE "../../../mmprint.h" 
Ttinclude "..J..7../Ennebliong.Lh" 
extern int hello(int n, ...); 


如 前 所 述 ，Rdefines.h 包 含 各 种 安 。 接 下 来 的 两 个 头 文 件 sprinth 和 function.h 分 别 是 包括 头 广 件 和 安 的 9?PRIN T 头 文件 。SPRINT 需 要 这 些 头 文件 ， 并 且 各 个 函数 的 合 
令 代 码 可 以 在 SPRINT 包 中 获得 。 


这 几 条 的 后 面 是 phello () 消 数 本 身 的 代码 。 它 由 已 经 初始 化 的 MPI 的 完整 性 检查 来 启动 。 记 住 ， 在 之 前 给 出 的 SPRINT ptest () 例子 中 ,在 library ("sprint") val 
用 的 R 肢 本 中 初始 化 MPI。 这 意味 着 每 次 调用 SPRINT 消 数 都 可 以 使 用 MPI 而 无 需 每 次 都 对 它 初始 化 。 


在 完整 性 检查 之 后 ,使 用 MPI_Bcast () 经 由 MPI 将 PHELLO 命 令 代码 广播 给 所 有 的 SPRINT 工 作者 进程 。 主 进程 现在 可 以 自己 执行 与 广播 的 命令 代码 相关 联 的 并 行 函 
数 。 在 这 个 特殊 情形 中 ， 它 是 hello () 函数 。 最 后 ， 将 它 的 输出 转换 为 指向 R 整 数 数 据 类 型 的 SEXP 指 针 ， 这 样 它 可 以 返回 到 R 存 根 phello.R， 并 且 也 可 以 调用 各 种 宏 处 理 
的 垃圾 收集 。 


444 添加 实现 国 数 一 hello.c 

在 SPRINT 中 ， 在 实现 函数 将 命令 代码 广播 给 工作 者 进程 后 ， 它 是 主 程序 中 被 接口 函数 调用 的 函数 。 在 接收 函数 的 命令 代码 时 ， 它 也 是 被 工作 者 进程 调用 的 进程 。 
此 ， 对 于 我 们 的 phello 例 子 ， 将 这 个 C 代 码 放 在 我 们 已 经 创建 的 位 于 sprint/src/algorithms/phello/implementation 的 文件 中 。 

让 我 们 创建 一 个 名 为 hello.c 的 文件 ， 它 将 包含 我 们 想 要 执行 的 实际 并 行 算法 的 实现 。 这 将 使 用 MPI 进 行 通 信 ， 正 如 前 面 所 提 到 的 ， 我 们 将 使 用 我 们 的 MPI C Hello 


World 例 子 为 基础 。 将 下 面 的 代码 添加 到 了 hello.c 中 : 


#include <mpi.h> 

#include <R.h> 

#include <Rinternals.h> 
#include <Rdefines.h> 
dinciude "../../../sprint.h" 


int hello(iBnE nh. sz} 


| 


// ignore input args.We don't need them in this example. 


int rank, size, result; 


MPI Comm size(MPI COMM WORLD, &size); 
MPI Comm rank(MPI COMM WORLD, &rank); 


DEBUG ("MPI is initiated in phello rank $d \n", rank); 
Rprintf ("Hello from rank $d out of %d\n", rank, size); 


MP I Bärri er (MP I COMM WORLD ) ; 
result - 0; // successful execution 


return result; 


该 代码 与 我 们 的 mpihello.c 示 例 几乎 完全 一 样 ， 但 是 没有 MPI_Init () FIMPI Finalize () 。 如 前 所 述 ，SPRINT 现 在 处 理 MPI 初 始 化 和 终止 。 还 请 注意 添加 
MPI Barrier () 函数 来 确保 主 进程 和 所 有 工作 者 进程 都 同步 到 结果 返回 前 的 执行 中 的 同一 点 上 。 


445 ”连接 仔 根 、 接 口 和 实现 


现在 到 达 了 最 后 一 步 ， 我 们 在 SPRINT 中 包含 我 们 的 阔 数 。 这 些 函 数 包括 更 新 各 种 配置 和 头 文件 。 
要 更 新 的 文件 如 下 所 示 : 


: functions.h 


: functions.c 

: NAMESPACE 

: Makefile 

` 为 新 函数 添加 man 页 | pHello.Rd 

让 我 们 依次 处 理 每 个 函数 。 
1.functions.h 


让 我 们 导航 到 sprint/src， 那 里 你 将 找到 这 些 文件 。 这 是 包含 在 接口 函数 中 的 其 中 一 个 文件 〈 参 见 之 前 给 出 的 phello.c 摘 述 ) 。 它 包含 SPRINT 包 中 可 获得 的 消 数 的 命 
令 代 码 。SPRINT 主 进程 将 这 些 命令 代码 友和 送 给 工作 者 进程 来 指导 它们 在 哪个 函数 中 执行 。 


让 我 们 通过 将 PHELLO 添 加 到 function.h 中 的 枚 举 列表 commandCodes 来 将 phello () 的 命令 代码 添加 到 命令 代码 列表 中 ， 代 码 如 下 所 示 : 


enum commandCodes { TERMINATE = 0, PCOR, PMAXT, PPAM, PAPPLY, 
PRANDOMFOREST, PBOOT, PSTRINGDIST, PTEST, INIT RNG, RESET RNG, 
PBOOTRP, PBOOTRPMULTI, PHELLO, LAST}; 


注意 ， 任 何 新 代码 必须 紧 接 在 LAST 之 前 添加 。 在 内 部 ，SPRINT 使 用 LAST 作 为 标志 来 指示 实现 错误 检查 的 命令 代码 的 范围 。 
2.functions.c 


这 个 文件 包含 了 与 functions.h 中 的 命令 代码 相对 应 的 实现 浮 数 的 声明 。 它 还 包含 这 些 消 数 的 指针 。 这 些 函 数 声明 为 extern， 且 具有 可 变数 量 的 参数 。 


让 我 们 导航 到 sprint/algorithms/common 并 编辑 functions.c。 首 先 ， 让 我 们 添加 hello () 函数 的 声明 ， 如 下 所 示 : 


/* 
* Declare the various command functions as external 


my 


extern. int. test(int n,...); 
[extern inb svm Call (int n,...); 
extern int correlation(int n,...); 
extern int permutation(int n,...) 
extern int pamedoids(int n,...); 
extern int apply(int n,...); 
extern int random forest driver(int,...); 
extern int boot(int,...); 

extern int stringDist(int,...); 

extern int init rng worker(int n, ...); 

extern int reset rng worker(int n, ...); 

extern int boot rank product(int n, ...); 
extern int boot rank product multi(int n, ...); 
extern int hello(int n, ...); 


接 下 来 ， 让 我 们 将 hello 的 函数 指针 添加 到 functions.c。 这 个 函数 指针 是 commandFunction 类 型 的 。typedef 位 于 sprint/src/functions.h 中 。 
请 注意 ， 这 个 冰 数 指针 必须 添加 到 遂 数 指针 的 数组 中 ， 其 位 置 与 sprint/src/functions.h 中 的 枚 举 列表 commandCodes 中 的 命令 代码 相对 应 。 


让 我 们 将 hello 的 遂 数 所 针 添加 到 function.c 中 ， 如 下 所 示 。 请 注意 遂 数 指针 如 何 与 functions.h 中 的 枚 举 有 相同 的 顺序 。 


/** 
* This array of function pointers ties up with the commandCode 
enumeration found in src/functions.h 


**/ 
commandFunction commandLUT[] = {voidCommand, 
/4 svm call, 
correlation, 
permutation, 


pamedoids, 

apply, 

random forest driver, 
boot, 

stringDist, 

test, 
init rng worker, 
reset rng worker, 
boot rank product, 
boot rank product multi, 
hello, 


voidCommand} ; 
3. 名 称 空间 


正如 在 《Writing R Extensions》 手 册 中 所 解释 的 ，R 在 包 中 有 代码 的 名 称 空间 管理 系统 。 这 人 允许 包 的 编写 人 指定 导出 包 中 的 哪个 变量 ， 因 此 ， 使 包 的 使 用 者 可 以 使 用 
它 。 它 还 指定 了 从 其 他 包 导 入 的 变量 。 


对 于 所 有 的 R 包 ， 命 名 空间 是 由 位 于 包 的 顶级 目录 的 NAMESPACE 文 件 来 指定 的 。 对 于 SPRINT， 这 是 下 载 并 解压 缩 的 源 代码 中 的 sprint 目 录 。 


现在 让 我 们 将 phello () 添加 到 NAMESPACE 文 件 中 这 样 在 加 载 SPRINT 后 ，R 用 户 可 以 调用 phello () 来 执行 位 于 phello.R 文 件 中 的 R 代 码 、 相 应 的 接口 和 实现 函 
数 。 
下 面 代 码 片 段 中 突出 显示 的 部 分 是 为 此 添加 到 SPRINT NAMESPACE 中 的 行 : 


# Namespace file for sprint 
useDynLib (sprint) 


export (phello) 
export (ptest) 
export (pcor) 


4.Makefile 
这 个 文件 用 于 编译 和 连接 SPRINT 包 。 我 们 需要 为 我 们 的 phello () RAEAN. 


让 我 们 导航 到 sprint/src 目 录 中 ， 并 将 下 列 代码 中 突出 显示 的 文本 添加 到 Makefile 中 ， 在 所 指示 的 位 置 : 


SHLIB OBJS = sprint.o 
ALGORITHM DIRS = algorithms/phello algorithms/common .. 


INTERFACE OBJS = algorithms/phello/interface/phello.o algorithms/ 
papply/interface/papply.o .. 


IMPLEMENTATION OBJS - algorithms/phello/implementation/hello.o 
algorithms/papply/implementation/apply.o.. 


phello.Rd 


R 包 的 源 代码 有 一 个 子 目录 man， 它 包含 了 该 包 的 用 户 级 对 象 内 容 的 文档 文件 。 让 我 们 为 新 遂 数 添加 man 页 。 导 航 到 sprint/man/， 并 在 这 个 目录 中 创建 文件 
phello.Rd。 现 在 ， 让 我 们 在 这 个 文件 中 添加 以 下 内 容 : 


\name {phello} 

\alias{phello} 

\title{SPRINT Hello World} 

\description{ 

Simple example function demonstrating adding a method to the SPRINT 
library. 

Prints a 'hello from processor n' message. 

j 

\usage { 

phello() 


j 


\arguments { 
None 


} 


\seealso{ 
\code{\link{SPRINT} } 


j 


\author { 

University of Edinburgh SPRINT Team 
\email{sprint@ed.ac.uk} 
\url{www.r-sprint.org} 


} 


\keyword{utilities} 
\keyword{interface} 


这 个 文件 以 R 文 档 格式 编写 。 天 于 这 个 格式 和 如 何 编写 R 文 档 文件 的 更 多 信息 可 以 在 《Writing R Extensions) PEI, 


4.4.6 编译 并 运行 SPRINT 代 码 


既然 所 有 需要 的 文件 已 经 更 新 为 包括 我 们 的 新 函数 ， 我 们 需要 编译 和 安装 SPRINT 包 以 便 我 们 可 以 执行 它 。 
在 R 中 可 以 编译 和 安装 SPRINT 库 ， 如 下 所 示 : 

$ cd sprint/src/ 

$ make clean 


E xu oes 
$ R CMD INSTALL sprint 


现在 让 我 们 运行 我 们 的 新 函数 。 在 SPRINT 中 运行 phello () 的 R 代 码 是 非常 简单 的 。 加 载 sprint 库 ,调用 phello () ， 通 过 调用 pterminate () 停止 SPRINT 工 作者 进 
程 。 实 现 这 些 的 R 代 码 如 下 所 示 : 


library (sprint) 
phello() 
pterminate () 


将 这 个 R 代 码 保存 到 名 为 testHello.R 的 文件 中 并 执行 它 : 


mpiexec -n 4 R -f testHello.R 


你 将 看 到 以 下 输出 。 
Welcome to SPRINT 
Please help us fund SPRINT by filling in 
the form at http://www.r-sprint.org/ 
or emailing us at sprint@ed.ac.uk and letting 


us know whether you use SPRINT for commercial 


or academic use. 

> phello() 

Hello from rank 0 out of 4 
Hello from rank 1 out of 4 


Hello from rank 2 out of 4 


Hello from rank 3 out of 4 
[1] 0 


> pterminate() 


图 4-4 详 细 展示 了 在 SPRINT 主 进程 中 通过 它 的 各 种 文件 的 执行 流 。 注 意 主 进程 如 何 发 起 命令 ， 将 它们 广播 到 工作 者 进程 ， 然 后 等 待 它们 的 结果 。 


SPRINT hello world master 


| phello() | 


Call("phello") 


| MPI Bcast(PHELLO) 
| hello() | 


| 
prints hello from 
the master 


SEXP value 0 


pterminate() | 


Call("sprint shutdown") 


| 
| | | | 
| testhello.R. print.c | pterminate.R | | functions.c | | p 


图 4-4 说 明 主 进程 中 pHello () 的 执行 流 的 序列 图 


| phello.c | | hello.c ( workers | 


图 4-5 也 展示 了 在 一 个 SPRINT 工 作者 进程 的 执行 流 。 注 意 工作 者 进程 如 何 通过 一 个 回路 循环 ， 等 待 主 进程 的 下 一 个 命令 执行 并 返回 一 个 结果 ， 直 到 它 接收 到 明确 的 
TERMINATE 命 令 ， 这 时 它 退 出 。 


SPRINT hello world master 


library("sprint") 


R init sprint() 


LZ 
worker() E 
wait for MPI bcast() g | 


MPI Beast(PHELLO) 


_commandLUT[PHELLO|(0) 


function pointer to hello 


hello() 


wait for MPI bcast() I j 


MPI Finalize()? 
testhello.R | print.c 


MPI Bcast(TERMINATE) 


 pterminate.R functions.c | | phello.R || phello.c 


图 4-5 说明 工 作者 进程 中 phello () 的 执行 流 的 序列 图 


45 “基因 组 学 分 析 案例 研究 


目前 为 止 在 本 章 中 ， 你 已 经 了 解 了 如 何 编写 MPI 并 行 例 程 ， 从 你 的 R 脚 本 直接 访问 这 些 例 程 ， 并 将 这 些 例 程 转换 为 可 重用 的 R 包 。 在 本 章 的 其 余部 分 ， 我 们 展示 如 何 使 
用 这 个 能 力 开 发 超级 计算 机 以 便 识 别 细 菌 感 染 的 迹象 和 新 生 儿 血液 样本 的 败血症 。 


基因 组 学 帮助 我 们 找到 在 婴儿 体内 细菌 感染 的 活动 水 平 增加 或 减少 的 那些 基因 。 通 过 了 解 免疫 系统 中 的 哪个 基因 对 细菌 感染 有 上 反应 (或 事实 上 ， 免 疫 系 统 如 何 被 细菌 
破坏 ) ， 我 们 可 以 (a) 看 看 这 些 基 因 的 活动 在 婴儿 与 婴儿 之 间 是 如 何不 同 的 ， (b) 根据 一 个 血液 样本 的 基因 表达 测量 ,使 用 它们 来 诊断 细菌 感染 。 


为 此 ， 通 过 摘 述 基于 MPI 的 R 包 (例如 SPRINT， 本 章 前 面 讨论 的 ) ， 本 章 的 剩余 部 分 包含 了 一 个 对 基因 组 学 的 简要 介绍 ， 人 允许 R 开 上 友 超 级 计算 机 并 协助 研究 人 员 对 抗 
新 生 儿 细菌 感染 。 


4.5.1 基因 组 学 


基因 组 学 是 研究 基因 组 的 结构 和 消 数 的 集合 名 词 。 基 因 组 (genome) 是 在 大 多 数 有 机 体 的 每 个 细胞 中 的 脱氧 核糖 核酸 的 忌 和 ， 即 DNA。 人 在 人 体内 ， 这 种 DNA 包 合 一 
串 32 亿 左右 的 称 为 核 音 酸 的 有 机 分 子 。 


一 核 苷 酸 由 一 个 糖分 子 、 一 个 磷酸 分 子 和 一 个 巴 作 基 的 化 学 物质 组 成 。 在 DNA 中 ， 有 4 个 基 : BEA (A) . BeBe (G). Mez (T). wg (C). A% 
DNA 串 是 由 这 些 缩写 的 序列 表示 的 。 


已 知 的 任何 DNA 段 包含 生成 一 种 特殊 坚 日 质 的 生物 指示 ， 这 些 段 称 为 基因 。 其 余 的 基因 组 段 称 为 非 编码 序列 ， 尽 管 许多 这 些 序列 实际 上 有 另 一 种 生物 功能 。 在 人 类 
中 ， 基 因 组 中 的 基因 总 数 当前 认为 是 19000 左 右 。 


对 于 一 个 给 定 的 生物 组 织 或 细胞 ， 基 因 组 学 允许 对 活动 ， 某 些 情况 下 这 些 基因 的 全 部 或 大 多 数 结构 ， 或 者 实际 上 任何 核 音 酸 序列 进行 监控 。 作 为 生命 科学 中 的 一 个 领 
域 和 技术 ， 和 凭借 相对 大 的 数据 集 ， 基 因 组 学 已 达到 这 个 阶段 ， 一 些 潜在 兆 字 节 大 小 ， 通 弟 由 非 专业 人 员 生 成 或 获得 。 这 导致 了 数据 分 析 在 大 小 和 量 上 的 爆 友 。 


作为 一 个 例子 ， 基 因 表达 精 选 集 (GEO) 目前 托管 了 13.6 亿 生物 样本 的 大 约 55900 个 研究 案例 的 库 。 单 个 样本 的 文件 大 小 从 大 约 20Mb 到 60M b 或 更 高 ， 研 究 案 例 数 据 
集 的 大 小 从 仅仅 200Mb 到 多 于 100GB。 


3 4 


“基因 组 学 通常 称 为 后 基因 组 学 ， 从 这 方面 来 说 ， 我 们 工作 在 全 基因 组 已 经 测序 的 时 代 ， 我 们 现在 仅仅 测量 一 个 特定 序列 在 何 种 情形 下 ( 即 基因 ) 执行 的 生物 功 


zu 
Cw 
o 


当 DNA 从 头 到 尾 的 核 音 酸 序列 是 已 知 的 时 ， 一 个 基因 组 称 为 是 可 测序 的 。 


测量 基因 组 是 重要 的 ， 因 为 它 对 机 体 如 何 对 应 特定 情况 (如 感染 、 受 伤 或 治疗 ) 进行 反应 ， 并 给 出 了 详细 解释 。 作 为 这 种 反应 的 一 部 分 ， 包 含 在 基因 中 的 生物 指示 由 
生物 细胞 中 的 其 他 成 分 (核糖 体 ) 读 取 。 这 个 过 程 称 为 转录 ， 是 乍 日 质 将 这 些 指示 转换 为 行动 的 中 间 步 骤 ， 例 如 ， 化 学 反应 、 结 合 和 识别 细菌 、 构 建 细 胞 结构 或 运输 分 
子 。 有 和 蛋 日 质 的 存在 也 可 以 直接 测量 ,但 是 生物 机 体内 的 鼻 日 质 比 基 因 多 得 多 ， 蛋 日 质 的 三 维 结构 在 决定 其 功能 方面 起 着 重要 作用 。 因 此 ， 利 用 和 蛋 日 质 组 理解 生物 过 程 比 
测量 基因 组 更 复杂 。 


SS yn OAR, 一 个 有 机 体 的 一 个 细胞 中 的 所 有 基因 的 总 和 称 为 基因 组 ， 一 个 有 机 体 的 一 个 细胞 中 的 所 有 有 蛋白质 的 总 和 称 为 蛋白 质 组 。 


图 4-6 前 明了 一 个 有 机 体 的 DNA 如 何 用 于 生成 蛋白 质 。 


Cell cytoplasm 


"gene" “non-coding sequence " Cell nucleus 
—_— l -— — 
.GATTAC | A EB 
C T A A T G G G T A C A ps (double stranded helix of nucleotides) 


| translated to 
C u G AUU AC A 1 G U mE RNA (single strand of nucleotides) 


| 


= 


Transcription 


Protein (chain of amino acids; 3 
nucleotide bases code for one 


amino acid) 


图 4-6 为 生成 一 种 蛋白 质 ， 一 个 有 机 体 的 DNA 中 的 基因 首先 转录 为 RNA 然 后 再 翻译 


正如 在 图 4-6 中 所 看 到 的 ， 一 套 指示 首先 将 DNA 中 的 基因 转录 为 RNA， 也 残 是 一 个 核糖 核酸 。DNA 是 一 个 双 链 螺旋 核 童 酸 ， 而 RNA 是 一 个 单 序 列 核 苷 酸 链 。 与 DNA 
相反 ， 这 个 单 RNA 链 可 以 离开 细胞 核 。 这 意味 着 基因 中 包含 的 如 何 整合 一 个 蛋 日 质 的 指示 ， 可 以 把 蛋 日 质 运 送 到 需要 它们 的 地 方 。 


在 图 4-6 的 第 二 步 中 ， 这 些 指示 (每 次 包括 3 个 RNA 核 苷 酸 基 ) 用 于 将 正确 的 氨基 酸 串 起 来 构成 一 个 时 日 质 。 例 如 ， 图 4-6 中 的 3 个 基 (也 称 为 “密码 子 ”) G-A-U 是 生 
成 氨基 酸 “D” 的 指示 。 将 正确 的 氨基 酸 捉 起 来 的 步骤 称 为 翻译 。 


4.5.2 ”基因 组 数据 


目前 ， 频 每 对 基因 组 进行 测量 ， 有 两 种 类 型 的 基因 组 实验 室 技 术 : 微 阵列 和 下 一 代 测 序 (NGS) 。 
微 阵列 测量 给 定 生 物 样 本 中 的 每 个 基因 的 表达 水 平 。 表 达 水 平 指 的 是 一 个 给 定 基因 的 RNA 字 符 捉 的 数量 。 对 于 每 一 个 生物 样本 ， 它 们 可 以 返回 到 每 个 大 约 19000 或 更 
多 基因 的 表达 水 平 ， 再 加 上 多 个 成 百 上 干 的 非 编码 序列 。 


NGS 人 允许 计算 呈现 在 给 定 生 物 样本 中 数 百 万 到 数 十 亿 的 短 核 音 酸 序列 的 数量 ， 也 就 是 说 ,不 仪 仅 是 基因 。 反 过 来 ， 这 些 所 谓 的 “ 短 序列 ”可 以 在 一 个 生物 样本 的 其 他 
方面 提供 数据 ， 如 基因 的 表达 水 平 、 基 因 的 替代 版 本 、DNA 与 蛋白 质 的 相互 作用 ， 以 及 预先 未 知 的 基因 组 的 成 分 。 

用 每 种 类 型 的 技术 ， 获 得 的 数据 集 大 小 是 测量 实体 (基因 ， 短 片段 ) 的 数量 ， 乘 以 研究 或 实验 中 的 生物 样本 的 数量 。 样 本 数量 通常 从 少数 几 个 到 数 百 个 。 例 如 ,在 
100 个 生物 样本 中 ， 用 微 阵列 测量 19000 个 基因 产生 了 1900000 个 数据 点 。 具 有 数 百 或 数 干 个 样本 的 大 型 NGS 研 究 可 以 产生 太 字 节 的 数据 集 。 

虽然 这 与 物理 学 或 成 像 问题 是 不 可 比较 的 ， 但 是 基因 组 数据 集 的 大 小 和 体积 给 分 析 师 分 析 许 多 CPU 速 度 和 内 存 分 配 问 题 提 供 了 足够 的 信息 。 这 是 尤其 如 此 ， 因 为 基因 
组 数据 分 析 的 一 种 驱动 力 是 识别 基因 之 间或 生物 样本 之 间 的 潜在 关系。 这 涉及 调查 所 有 可 能 的 单个 观察 测 值 对 (基因 或 样本 ) ， 这 意味 着 所 需 计算 的 数量 和 空间 是 原始 数 
据 维 度 的 平方 。 例 如 ， 在 之 前 的 微 阵列 示例 中 测量 19000 个 基因 之 间 的 相似 性 ， 产 生 了 19000“ 个 观测 值 ， 即 3.61 亿 个 相互 关联 或 其 他 类 似 度量 标准 的 计算 。 更 加 复杂 的 问 


题 企 于 ， 这 些 调查 并 不 会 变 为 简单 “数据 运算 ”的 并 行 解 。 


随 着 这 些 实验 室 技术 的 进一步 友 展 ， 不 仅 可 以 测量 由 序列 数量 引起 的 数据 集 大 小 的 增加 ， 并 且 随 着 更 多 研究 小 组 变 得 羡 于 使 用 这 些 日 益 廉 价 的 技术 ， 这 同样 会 产生 大 
量 结 果 。 尤 其 是 ， 下 一 代 测 序 技术 可 能 会 对 这 些 增加 的 大 部 分 负责 ， 并 为 可 预知 的 未 来 提供 有 趣 的 计算 软件 并 行 化 问题。 


46 基因 组 学 与 超级 计算 机 


既然 你 有 一 些 基因 组 学 的 知识 ， 让 我 们 看 看 一 个 超级 计算 机 如 何 帮助 R 用 户 调查 新 生 儿 体内 的 细菌 感染 。 


46.1 目标 


可 以 使 用 基因 组 数据 (如 微 阵列 基因 表达 数据 ) 来 识别 基因 集 ， 综 上 所 述 ， 可 以 预测 一 个 新 的 生物 样本 是 否 属于 一 个 特定 的 类 样本 〈 即 一 个 健康 的 样本 或 一 个 病态 的 
样本 ) 。 在 这 里 介绍 的 研究 案例 中 ， 我 们 将 看 到 爱丁堡 大 学 的 通路 医学 和 感染 部 门 的 研究 ， 他 们 通过 测量 血液 样本 中 的 基因 表达 来 诊断 幼小 婴儿 的 细菌 感染 。 我 们 想 看 如 
何 通过 R 有 效 地 使 用 超级 计算 机 来 处 理 大 量 的 基因 表达 数据 集 。 


4.6.2 ARCHER 超 级 计算 机 
使 用 的 超级 计算 机 是 Cray XC30MPP。 这 是 ARCHER 的 一 部 分 ， 英 国学 术 国 家 超级 计算 服务 。 在 撰写 本 书 时 (2015 年 3 月 ) ， 这 个 服务 包括 Cray XC30MPP 超 级 计算 
机 、 外 部 登录 节点 、 后 处 理 节点 以 及 相关 的 文件 系统 。 


超级 计算 机 本 身 由 4920 个 计算 节点 组 成 ， 每 个 节点 包含 两 个 12 核 的 Intel Ivy Bridge 系 列 处 理 器 ， 总 共 118080 个 处 理 核心 。4544 个 计算 节点 的 每 个 有 64GB 的 内 存 ， 
剩余 的 376 个 计算 节点 有 128GB 的 内 存 。 


在 超级 计算 机 上 运行 一 个 程序 或 脚本 与 在 笔记 本 电脑 或 个 人 计算 机 上 运行 它 是 不 同 的 。 在 ARCHER 中 ， 用 户 登 录 a 到 外 部 登录 节点 之 一 ， 并 创建 一 个 包含 指令 的 提交 肢 
本 以 便 执行 所 需 的 程序 或 应 用 程序 。 然 后 用 户 使 用 PBS 批 处 理 作业 调度 系统 提交 这 个 执行 脚本 作为 在 一 个 或 多 个 ARCHER 的 计算 节点 上 的 一 个 作业 。 一 些 作业 ， 如 果 有 的 
话 ， 使 用 ARCHER 的 全 部 数 干 个 计算 节点 和 数 万 个 核心 。 相 反 ， 通 过 PBS， 将 ARCHER 组 织 为 包含 不 同 数 量 节点 的 队列 。 来 用 这 个 方式 ， 多 个 作业 可 以 在 ARCHER 上 同时 
执行 ， 每 个 作业 都 互 奈 访问 与 已 提交 队列 相关 的 计算 节点 的 子 集 。 


为 了 充分 利用 超级 计算 机 的 计算 能 力 ， 超 级 计算 机 (比如 ARCHER) 经 常 访问 已 组 织 成 一 系列 队列 的 计算 节点 。 每 个 队列 都 有 不 同 的 约束 ， 例 如 ， 一 个 队列 可 能 
限制 为 有 10 分 钟 或 更 少 的 运行 时 间 以 及 请 求 2 个 或 更 少 节点 的 作业 。 另 一 个 队列 可 能 限制 为 有 6 小 时 的 最 小 运行 时 间 且 需要 最 多 150 个 节点 的 作业 。 通 常 ， 队 列 配 置 更 改 超过 
24 小 时 ， 以 反映 超级 计 章 机 的 不 同 使 用 配置 文件 。 例 如 ， 只 有 利用 大 量 节点 的 那些 队列 是 整 夜 活跃 的 。 


让 我 们 向 ARCHER 的 计算 节点 提交 sprint_test.R 脚 本 来 执行 SPRINT ptest () 函数 。 这 个 脚本 和 ptest () 函数 在 这 一 章 的 前 面部 分 已 经 描述 过 了 。 
library("sprint") # load the sprint package 
ptest () 
pterminate() # terminate the parallel processes 
quit () 


这 是 提交 脚本 。 它 包含 注解 、PBS 指 令 和 shell 脚 本 。 


#!/bin/bash -login 

# ! Edit the job name to identify separate job 
#PBS -N ptest 

# ! Edit number of nodes to fit your job 

#PBS -1 select-2 

# ! Edit time to fit your job 

#PBS -1 walltime-00:09:00 

# Replace with your own budget 

HPBS -A a01 


# Load R & SPRINT library 
module swap PrgEnv-cray PrgEnv-gnu 
module load R 


# Change to the directory that the job was submitted from 
cd $PBS O WORKDIR 


# Replace STMP with your own temporary directory. 
export TMP--/work/tmp 


# Launch the job 
aprun -n 48 R -f sprint test.R 


该 脚本 的 第 一 行 (#! /bin/bash-login) 表明 支持 Linux shell 用 于 在 提交 脚本 中 执行 指令 。 在 这 种 情况 下 ， 它 是 bash 编 译 器 。 这 些 以 #PBS 开 头 的 行 是 PBS 的 指令 。 所 
有 以 # 开 头 的 其 他 行 表示 注解 。 


提交 脚本 的 第 3 行 包含 #PBS-n ptest。 这 是 一 个 指令 去 ， 它 指示 PBS 运 行 这 个 脚本 的 内 容 作为 一 个 叫 作 ptest 的 批 处 理 作 业 。 第 5 行 的 指令 (#PBS-Iselect=2) 指示 PBS 
作业 想 要 使 用 两 个 AECHER 的 计算 节点 。 在 ARCHER 中 ， 这 将 意味 着 作业 互 斥 访问 这 些 节点 ， 在 这 些 节 点 上 将 没有 其 他 作业 同时 运行 。 第 7 行 的 指令 #PBS9-| 
walltime=00: 09: 00 要 求 互 奈 地 有 这 些 节 点 的 作业 有 9 分 钟 的 运行 时 间 ， 第 9 行 的 指令 #PBS-A a01 表 明 将 这 些 节点 上 运行 这 个 作业 的 成 本 填充 到 a01 代 码 的 预算 中 。 在 
ARCHER 中 ， 像 许多 超级 计算 机 一 样 ， 用 户 必须 支付 执行 程序 或 应 用 程序 的 费用 。 在 ARCHER 的 实例 中 ， 这 是 通过 预算 工具 管理 的 ， 可 以 授予 用 户 一 定数 量 的 计算 时 间 。 
对 于 一 个 成 功 的 提交 ， 预 算 代码 必须 是 有 效 的 ， 并 且 预 算 必须 包含 足够 的 时 间 来 满足 第 7 行 要求 的 运行 时 间 。 请 看 第 12 和 第 13 行 : 


module swap PrgEnv-cray PrgEnv-gnu 
module load R 


这 些 包 含 shell 命 令 以 便 加 载 适 当 的 应 用 程序 开发 环境 应 用 于 计算 节点 上 使 用 。 在 ARCHER 中 ， 通 过 模块 工具 控制 这 些 环境 ， 人 允许 编译 器 、 库 和 软件 的 加 载 和 切换 。 对 
于 在 R 脚 本 中 使 用 SPRINT 包 的 情形 ， 这 意味 着 从 Cray 向 GNU 编 程 环境 进行 交换 并 且 为 在 ARCHER 中 R 的 安装 模块 。 第 15 行 和 第 18 行 分 别 将 工作 目录 更 改 为 提交 脚本 的 地 
方 ， 并 设置 临时 目录 以 便 在 执行 期 间 使 用 。 最 后 ， 看 看 文件 的 最 后 一 行 : 


aprun -n 48 R -f sprint test.R 
它 包 含 了 ARCHER 指 令 ， 该 指令 相当 于 以 下 操作 系统 命令 行 指 令 ， 这 些 指令 我 们 在 本 章 前 面 执行 sprint_test.R 时 曾 摘 述 过 : 
$ mpiexec -n 5 R -f sprint test.R 


在 ARCHER 中 ， 提 交 脚 本 调用 aprun 而 不 是 mpiexec 实 例 化 MPI 进 程 。 这 里 aprun 调 用 实例 化 48 个 进程 ， 要 求 两 个 节点 上 的 每 个 核心 一 个 。 在 每 个 ARCHER 计 算 节点 中 
有 24 个 核心 。 

如 果 这 个 提交 脚本 保存 在 一 个 名 为 ptest.pbs 的 文件 中 ， 则 在 ARCHER 登 录 节 点 上 的 操作 系统 命令 行 键入 下 面 的 指令 命令 PBS 使 用 这 个 文件 创立 一 个 在 两 个 ARCHER 计 
算 节 点 上 执行 的 作业 。 当 该 作业 等 待 执行 时 ，PBS 把 它 放 置 在 队列 中 。 


$ qsub test.pbs 


ZEARCHER#, PBS qstat 命 令 可 以 用 来 监控 队列 中 作业 的 状态 。 下 面 是 运行 这 个 命令 为 我 们 提交 的 输出 。 参 数 -u$9USER 命 令 PBSs 为 当前 的 用 户 返 回 仅 有 这 些 作业 的 列 
表 。 


$ qstat -u SUSER 


sdb: 

Req'd Req'd Elap 

Job ID Username Queue Jobname SessID NDS TSK Memory 
Time S Time 

2761436.sdb user A 82755804 ptest -- 2 

48 -- 00:09 Q — 


在 job ID 下 ， 输 出 显示 了 PBS 分 配给 这 个 作业 的 标识 符 ， 在 这 种 情况 下 ， 它 是 2761436.sdb。 在 Username 下 是 用 户 的 名 称 users A， 它 提交 了 该 作业 。 在 
Queue (S2755804) 下 列 出 了 作业 等 待 中 的 队列 。 在 Jobname 下 是 提交 脚本 中 分 配给 作业 的 名 称 ， 即 ptest。 如 果 这 个 作业 正在 运行 ， 则 在 SessID 下 ， 是 会 话 的 标识 符 。 
在 我 们 前 面 的 例子 中 ， 作 业 还 没有 运行 ， 所 以 它 包含 --。 在 NDS 下 ， 是 要 求 的 计算 节点 的 数量 ， 即 2。 


在 TSK 下 是 列 出 的 要 求 的 任务 或 者 核心 的 数量 一 48。 在 Req'd Memory 和 Req'd Time 下 ， 分 别 列 出 了 要 求 的 内 存 和 要 求 的 运行 时 间 ， 给 定 "-- "表示 没有 要 求 具体 的 内 
人 存 数 量 ，00: 09 表 明 要 求 的 运行 时 间 最 多 为 9 分 钟 。 人 在 3 下 ， 列 出 了 作业 的 当前 状态 ， 并 且 当 包含 Q 时 表示 作业 正在 排队 。 最 后 ，Elap Time 表 示 到 目前 为 止 的 运行 时 间 。 
因为 作业 处 于 排队 状态 ， 所 以 正在 等 竺 执行， 包含 ” "意味 着 迄今 为 止 没有 花费 任何 运行 时 间 。 


当 该 作业 真正 执行 后 ， 它 的 输出 和 遇 到 的 任何 错误 都 列 企 了 提交 的 提交 脚本 目录 中 的 两 个 文件 中 。 输 出 的 文件 称 为 ptest.o2761436， 并 且 在 执行 期 间 遇 到 的 任何 错误 
都 保存 在 称 为 ptest.e2761436 的 文件 中 。 如 你 所 见 ， 这 些 的 名 字 来 源 于 提交 脚本 中 行 #PBS-N ptest 中 指定 的 作业 名 和 作业 标识 符 ， 如 qstat 输 出 所 示 。 


打开 ptest.o2761436， 显 示 48R 局 动 和 库 加 载 信息 ， 以 及 48ptest () 输出 消息 。 下 面 是 从 文件 中 提取 的 一 部 分 : 


[1] "HELLO, FROM PROCESSOR: 0" "HELLO, FROM PROCESSOR: 22" 
[3] "HELLO, FROM PROCESSOR: 17" "HELLO, FROM PROCESSOR: 24"... 


46.3 ”随机 和 森林 


有 多 个 算法 可 以 用 于 将 血液 样本 分 类 为 感染 的 或 健康 的 。 随 机 森林 是 一 个 这 样 的 分 类 算法 。 基 于 一 组 已 知 的 样本 类 ， 随 机 森林 将 预测 一 个 新 样本 的 类 成 员 。 对 于 大 的 
数据 集 ， 随 机 森林 通常 不 能 用 于 诊断 测试 。 相 反 ， 它 用 于 识别 能 更 好 预测 未 知 样本 的 类 的 基因 。 这 些 基 因 是 研究 感染 免疫 反应 的 生物 学 家 感 兴趣 的 ， 并 且 也 是 创建 诊断 测 
试 的 主要 候选 者 。 


随机 森林 算法 是 一 个 集合 树 分 类 器 ， 它 从 数据 集 的 引导 程序 重新 取样 来 构造 分 类 树 的 森林 。 在 《Machine Learning》 第 1 期 第 2 卷 的 Breiman 的 论文 中 可 以 找到 更 多 
随机 森林 的 信息 。 


一 在 随机 森林 中 ， 一 裸 分 类 树 由 节点 组 成 ， 基 于 一 些 变量 (随机 选取 ) 的 值 每 个 节点 划分 这 个 数据 集 。 当 构造 树 时 ， 我 们 可 以 通过 从 根 节点 将 观测 实例 发 送 到 树 来 
对 观测 实例 进行 分 类 。 在 树 的 每 一 个 分 支 ， 通 过 将 变量 的 值 与 树 节 点 的 规则 进行 比较 来 做 出 决定 。 例 如 ， 在 所 有 观测 节点 的 一 个 节点 中 ， 变 量 A 的 值 大 于 1.4 的 观测 值 将 放 
到 右 分 支 ， 其 他 的 观测 将 放 到 左 分 支 。 观 测 预测 的 类 是 它 的 叶子 节点 。 随 机 森林 算法 在 原始 数据 集中 随机 选择 一 些 观 测 值 来 创建 一 个 分 类 树 的 和 森林 ， 然 后 使 用 它 对 数据 进 
行 分 类 。 这 些 也 提供 了 关于 哪些 变量 对 正确 分 类 数据 最 重要 的 有 用 信息 。 通 过 将 观测 值 发送 到 和 森林 中 的 每 棵 树 对 观测 值 进行 分 类 。 如 果 1000 棵 树 对 观测 值 X 进 行 投票 ， 而 
它 可 以 分 类 为 类 AB， 而 200 棵 树 进 行 投票 ， 它 是 类 CD， 那 么 观测 又 可 以 分 类 为 类 AB。 有 一 些 争 论 是 最 小 数量 的 树 生成 特定 大 小 的 数据 集 ， 但 一 般 的 观点 是 服从 计算 约束 条 
件 ， 生 成 的 树 越 多 ， 产 生 分 类 的 置信 度 就 越 大 。 


一 个 数据 集 的 引导 程序 重 采 样 是 通过 从 数据 集中 随机 选取 观测 值 来 创建 的 ， 直 到 引导 程序 数据 集中 的 观测 值 的 数量 与 原始 数据 集中 的 观测 值 的 数量 相同 。 具 有 替换 重 
采样 是 在 相同 的 引导 再 取样 中 包含 不 止 一 次 对 观测 的 选取 。 也 就 是 说 ， 观 测 保留 在 可 能 的 观测 值 的 池 中 ， 它 可 以 从 引导 程序 重 采 样 的 原始 数据 集中 选择 。 


Mitchell 的 论文 (参见 http://onlinelibrary.wiley.com/doi/10.1002/cpe.2928/full) 摘 述 了 并 行 随机 森林 的 两 个 选项 。 你 可 以 或 者 并 行 化 引导 程序 阶段 或 者 并 行 化 一 
棵 树 的 生成 。 


后 一 种 并 行 化 一 棵 树 生成 的 选择 是 两 种 选择 中 比较 复杂 的 一 种 。 即 便 如 此 ， 许 多 并 行 生成 决策 树 的 现 有 算法 确实 人 存 企 。 然 而 ， 所 有 这 些 算 法 是 为 在 社会 科学 中 遇 到 的 
数据 而 设计 的 ， 在 社会 科学 中 有 很 多 典型 的 样本 (成 百 上 干 或 者 数 百 万 ) ， 但 是 只 有 少数 的 变量 ( 几 十 或 几 百 ) 描述 每 个 样本 。 这 些 算法 利用 样本 中 的 并 行 性 ， 在 并 行进 
程 之 间 分 离 它 们 。 不 幸 的 是 ， 这 些 算法 没有 很 好 地 映射 到 微 阵列 和 NGS 数 据 ， 那 里 样本 的 数量 是 小 的 (通常 几 十 或 几 百 ) ， 而 变量 的 数量 是 很 大 的 (通常 数 干 或 数 百 
万 ) ， 此 外 ， 由 于 树 的 每 个 分 割 只 考虑 所 有 变量 的 一 个 子 集 ， 所 以 如 果 我 们 通过 对 变量 进行 并 行 化 (而 不 是 实例 ) ， 则 将 缺乏 负载 均衡 。 


a= SPRINT R 包 的 起 源 作 为 来 目 感染 和 通路 医学 部 门 的 生命 科学 家 与 来 自爱 本 堡 大 学 的 爱丁堡 并 行 计算 中 心 的 HPC 专 家 之 间 的 合作 ， 随 机 森林 的 实现 使 用 了 一 种 任务 
并 行 方 式 。 在 这 个 任务 并 行 方式 中 ， 将 引导 程序 样本 分 友 给 并 行进 程 ， 并 且 将 结果 进行 组 合 。 然 而 ， 这 种 方式 在 原始 微 阵列 或 NGS 数 据 中 是 受 限制 的 ， 这 些 数 据 必须 在 一 


个 R 进 程 的 内 存 中 。 


随机 森林 方法 的 SPRINT 实 现 的 这 个 任务 并 行 化 性 质 意味 着 它 可 以 重用 各 代 随 机 森林 的 现 有 R 代 码 。 也 束 是 说 ， 它 使 用 Breiman 和 Culter 的 randomForest RA, CAI 
以 从 CRAN (参见 http://cran.r-project.org/web/packages/random-Forest/randomForest.pdf) 下 载 。 这 人 允许 SPRINT 实 现 的 用 户 接口 可 以 正确 地 模拟 序列 码 的 调用 
约定 。 然 而 ， 由 于 随机 引导 程序 的 性 质 ， 当 并 行 的 结果 与 串 行 执行 的 结果 在 数字 上 并 不 相等 了 时， 它们 在 统计 规范 内 相等 。 


4.6.4 ”基因 组 分 析 案 例 研究 的 数据 


在 本 章 中 ， 我 们 将 使 用 在 ARCHER 超 级 计算 机 上 执行 的 随机 森林 的 SPRINT 并 行 实现 来 测试 一 个 假设 ,该 假设 是 通过 基因 转录 分 析 ， 可 以 识别 新 生 儿 体内 的 细菌 


在 图 像 处 理 和 初始 数据 处 理 后 ， 有 一 个 为 分 析 基 因 表 达 而 准备 的 小 数据 集 的 例子 ， 它 由 20 个 样本 中 的 25000 个 基因 的 数据 矩阵 组 成 。 一 个 大 的 基因 分 型 数据 集 由 2000 
个 样本 中 2 百 万 个 单 核 音 酸 多 肽 链 (SNP) 组 成 。 大 多 数 分 析 方 法 涉及 维 数 ， 变 量 的 数量 ( 即 基 因 、SNP 或 序列 的 数量 ) 大 大 超过 样本 的 数量 。 这 不 同 于 在 社会 科学 中 产 
生 的 数据 集 的 种 类 ， 社 会 科学 中 一 个 典型 的 数据 集 由 少量 的 变量 和 大 量 的 样本 组 成 。 如 前 所 述 ， 随 机 森林 的 SPRINT 实 现 用 于 处 理 具有 大 量变 量 的 生物 数据 集 。 


为 研究 细菌 感染 ， 感 染 和 通路 医学 部 门 从 62 个 婴儿 收集 血液 样本 一 已 经 证 实 其 中 的 27 个 婴儿 细菌 感染 ，35 个 是 未 受 感染 控制 。 总 体 目 标 是 确定 可 以 可 靠 确定 一 个 未 知 
血液 样本 是 否 受 感染 的 基因 集 。 


将 血液 样本 处 理 为 RNA 水 平 ， 将 每 个 样本 杂交 为 一 个 lllumina 人 类 基因 表达 微 阵列 。 每 个 阵列 包含 23292 个 探 针 序列 用 来 测量 人 类 基因 组 中 的 所 有 已 知 基因 的 表达 。 


4.6.5 ARCHER 中 的 随机 森林 性 能 
在 64GB 的 内 存 节点 上 使 用 一 个 核心 的 ARCHER 超 级 计算 机 ， 串 行 随机 森林 实现 花费 大 约 168 秒 的 运行 时 间 ， 根 据 从 收集 的 血液 样本 推导 出 的 数据 生成 一 个 8192 棵 树 
(64x128) 的 森林 。 


图 4-7 显 示 了 在 一 个 核心 上 运行 串 行 实现 的 运行 时 间 ， 以 及 用 相同 数据 在 ARCHER 64GB 计 算 节 点 上 的 2、4、8、16、32、64、128、256、512 和 912 个 核心 上 的 随机 
森林 的 SPRINT 实 现 的 运行 时 间 ， 


图 4-8 显 示 了 相对 于 串 行 执行 的 ?PRINT 实 现 加 速 比 (加 速 比 和 Amdahl 定 律 在 第 6 章 解 释 ) 。 


RandomForest run times 
Data: Standard size (23 292 genes 62 samples) 8192 trees 
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图 4-7 ”由 23292 个 基因 和 62 个 样本 组 成 的 8192 棵 树 生成 的 随机 森林 的 运行 时 间 。x 轴 是 对 数 刻 度 ， 它 显示 了 用 于 每 个 执行 中 的 所 有 核心 的 序列 


RandomForest speedup factors 
. Data: Standard size (23 292 genes 62 samples) 8192 trees 
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图 4-8 ”相对 串 行 代码 的 随机 森林 的 SPRINT 实 现 的 加 速 比 。x 轴 是 对 数 刻度 ， 显 示 了 每 个 执行 中 的 所 有 核心 的 序列 
如 图 4-8 所 示 ， 加 速 比 是 适度 的 ， 在 32 个 核心 时 达到 了 尖峰 14， 并 达到 了 最 快速 的 运行 时 间 12 秒 。 超 过 32 个 核心 ， 对 于 这 个 大 小 的 数据 集 ， 通 信 的 部 分 结果 和 重组 它 
们 的 开销 超过 并 行 生成 树 的 收益 。 这 种 效应 在 图 4-9 中 进一步 说 明 。 


SPRINT 随 机 森林 实现 使 用 一 个 任务 并 行 方法 ， 即 每 个 核心 负责 在 总 引导 样本 (Bate, bU) 的 子 集 上 执行 随机 和 森林， 随后 ， 这 些 结果 被 结合 在 一 起 。 图 4-9 显 示 用 同 
样 数 据 执行 SPRINT 随 机 森林 的 运行 时 间 ， 但 该 时 间 ， 根 据 使 用 的 核心 的 数量 ， 改 变 引 导 程 序 样本 ( 即 树 ) 的 数量 。 当 有 一 个 核心 时 ， 仪 仪 使 用 了 128 棵 树 ; 两 个 核心 时 ， 
使 用 了 256 棵 树 ;， 等 等 直到 512 个 核心 时 ， 使 用 65536 棵 树 。 也 就 是 说 ， 使 用 的 每 个 核心 总 是 生成 128 棵 树 。 图 4-9 显 示 了 忌 运行 时 间 除 以 每 个 运行 的 核心 的 数量 ， 即 计算 每 
个 执行 过 程 中 每 个 核心 生成 128 棵 树 所 用 的 时 间 。 


因此 ， 这 有 助 于 展示 通信 的 部 分 结果 和 重组 它们 的 影响 ， 大 于 32 个 核心 ， 通 信和 重组 的 开销 远 远 超过 这 个 大 小 的 数据 集 的 整体 性 能 优势 。 


RandomForest speedup factors 
Ust Standard size (23 292 genes 62 samples) 128 trees per core 
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图 4-9 ”用 每 核心 128 棵 树 ( 和 一 个 具有 23292 个 基因 、62 个 样本 的 固定 大 小 的 数据 集 ) 执行 SPRINT 随 机 森林 。x 轴 是 对 数 刻 度 ， 显 示 用 于 每 个 执行 过 程 的 所 有 核心 的 序列 


正如 本 章 前 面 所 提 到 的 ，NGS 数 据 集 是 非常 大 的 ， 因 此 我 们 使 用 来 自 新 生 儿 体内 细菌 感染 研究 中 的 数据 ， 生 成 一 个 与 NGS 数 据 集 大 小 相当 的 数据 集 。 图 4-10 显 示 了 包 
含 512000 个 变量 的 数据 集 的 运行 时 间 ( 当 通 过 NGS 技 术 和 后 成 时 ， 这 样 的 数量 可 能 包含 非 编码 序列 、 单 核 首 酸 多 仿 链 、 基 因 剪 接 变 体 等 ) ， 这 些 变 量 来 源 于 我 们 的 原始 
23292 个 基因 。 也 生成 了 8192 棵 树 。 


这 里 ， 串 行 运行 时 间 超 过 100 分 钟 ， 但 是 在 128 个 核心 上 采用 SPRINT 并 行 实现 运 行 它 时 ， 运 行 时 间 减 少 到 仪 仅 一 分 半 钟 。 这 些 再 次 在 ARCHER 的 64GB 内 存 计算 节点 上 
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和 运行。 


RandomForest run times 
Data: Large size (500 000 sequences 62 samples) 128 trees per core 
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图 4-10 从 一 个 具有 512000 个 变量 和 62 个 样本 的 数据 集中 生成 8192 棵 树 的 并 行 随机 森林 运行 时 间 。y 轴 表示 每 个 执行 的 时 间 CR) ， 而 x 轴 是 对 数 刻 度 ， 表 示 用 于 每 个 执行 
过 程 的 所 有 核心 的 序列 


图 4-11 显 示 了 相对 于 串 行 实现 的 加 速 比 。 在 128 个 核心 中 实现 了 至 少 64 的 加 速 比 。 超 过 这 个 数量 的 核心 ， 与 较 小 的 数据 集 一 样 ， 通 信 的 部 分 结果 和 重组 它们 的 开销 超 
过 了 并 行 生成 树 的 收益 。 


较 小 的 数据 集 使 用 32 个 核心 达到 了 最 大 的 速度 ; 较 大 的 数据 集 使 用 128 个 核心 达到 了 最 大 的 速度 。 使 用 核心 的 理想 数量 取决 于 你 的 数据 集 。 


运行 这 个 作业 生成 了 图 4-12， 该 图 与 图 4-9 类 似 ， 每 个 内 核 有 128 棵 树 ， 但 此 时 有 一 个 大 的 数据 集 ， 包 含 500000 个 序列 。 这 证 实 了 不 论 这 个 数据 集 有 多大， 它 都 有 一 
个 更 高 的 核心 数 ， 树 的 通信 和 重组 开销 超过 了 并 行 化 的 收益 。 


RandomForest speedup factors 
Data: Large size (500 000 sequences 62 samples) 128 trees per core 
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图 4-11 相对 于 从 512000 个 变量 和 62 个 样本 的 数据 集中 生成 8192 棵 树 的 并 行 随机 森林 的 串 行 实现 的 加 速 比 。x 轴 是 对 数 刻度 ， 表 示 用 于 每 个 执行 过 程 的 所 有 核 的 序列 


RandForest run times 
Data: Large size (500 000 sequences 62 samples) 128 trees per core 
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图 4-12 ”用 每 个 核心 128 棵 树 对 一 个 有 500000 个 序列 和 62 个 样本 的 大 数据 集 执行 SPRINT 随 机 森林 。x 轴 是 对 数 刻 度 ， 显 示 用 于 执行 每 个 过 程 的 所 有 核心 的 序列 


46.6 排名 产品 


基因 表达 数据 经 常用 来 确定 哪些 个 体 基因 显示 出 组 间 表 达 的 统计 学 显著 变化 ， 例 如， 在 健康 和 患 病 的 样本 之 i 间 。 尽 管 在 标准 情况 下， 频繁 使 用 带 有 经 验 贝 叶 斯 调节 t 检 
验 的 limma 包 对 于 大 多 数 分 析 是 足够 的 ， 但 在 某 些 情况 下 ( 非 参 数 数据 假设 、 元 分 析 ) ， 排 名 产品 检验 是 稳健 统计 检验 的 另 一 个 例子 ， 稳 健 统 计 检 验 关 注 基 因 表达 的 折 蔷 
变化 〈 从 本 质 上 讲 ， 直 接 测量 折 赦 变化 的 称 定性， 而 不 是 测量 组 特异 性 基因 表达 含义 和 相关 的 基因 变异 性 ) 。 


因此 ， 排 名 产品 被 认为 是 一 个 能 够 识别 重要 基因 的 的 特征 选择 方式 。 (更 多 排名 产品 的 详细 信息 ， 参 见 Breitling 等 人 2004 年 的 论文 “Rank products: a simple, yet 
powerful, new method to detect differentially regulated genes in replicated microarray experiments.” 这 可 以 


在 http://www.ncbi.nIm.nih.gov/pubmed/15327980 上 免费 获得 ) 。 
正如 Mitchell 等 人 关于 URL 的 解释 ，4.6.3 节 涉及 URL， 排 名 产品 适用 于 比较 两 种 不 同 实验 条 件 的 实验 ,例如 ，A 类 和 B 类 ， 实 际 上 ， 包 括 3 个 步骤 : 
1) 对 于 每 一 个 基因 ， 一 个 排名 产品 通过 以 下 来 计算 : 
C 在 所 有 人 A 类 与 B 类 的 成 对 比较 中 ， 对 折 县 交 化 值 进行 排名 。 
+ 在 所 有 样品 中 选取 这 些 排 名 的 产品 。 


2) 计算 排名 产品 的 零 分 布 。 如 果 基 因 之 间或 样本 之 间 没 有 分 化 ， 那 么 这 是 期 望 的 分 布 。 不 幸 的 是 ， 不 可 能 构建 零 分 布 的 解析 形式 ， 因 此 它 是 使 用 引导 程序 过 程 数 值 
构造 的 。 这 涉及 通过 独立 地 变更 每 个 样本 的 基因 表达 向 量 来 创建 一 个 随机 实验 ， 并 且 在 随机 数据 中 计算 所 有 基因 的 排名 产品 。 这 将 重复 很 多 次 (10000 或 100000 次 ) 来 为 
零 假 设 创建 一 个 排名 产品 的 分 布 。 

3) 然后 将 通过 实验 观察 到 的 排名 基因 的 排名 产品 与 零 分 布 进行 比较 。 通 过 比较 实际 测量 值 如 何 比较 机 会 (也 就 是 说 ， 对 随机 基因 表达 数据 测量 数 干 个 值 ) ， 这 人 允许 
准确 地 计算 显著 性 水 平和 估计 临界 值 。 

正如 Mitchell 等 人 所 观测 到 的 ， 这 是 3 个 步骤 的 第 二 步 ， 引 导 程 序 的 零 分 布 的 生成 是 计算 昂贵 的 部 分 。 排 名 产品 的 SPRINT 实 现 通过 在 可 用 进程 之 间 划 分 所 需 的 引导 程 


序 样本 数 来 采取 一 个 任务 并 行 方式 。 这 要 求 将 输入 数据 集 广播 给 所 有 的 进程 。 然 后 独立 地 计算 引导 程序 样本 ， 整 理 结果 并 将 其 返回 给 主 进程 以 便 进一步 分 析 。 与 随机 森林 
的 SPRINT 实 现 类 似 ， 只 要 输入 数据 适合 一 个 进程 的 可 用 内 存 ， 那 么 排名 产品 实现 融会 运行 恨 好。 


4.6.7 ARCHER 中 的 排名 产品 性 能 


现在 ， 让 我 们 用 来 自 新 生 儿 体内 的 细菌 感染 的 研究 数据 来 运行 排名 产品 的 SPRINT 并 行 实现 ， 也 就 是 说 ，23292 个 基因 ，62 个 样本 。 对 于 1024 个 样本 (排列 ) ， 在 一 
MARCHER 64GB 内 存 计 算 节 点 的 单 核心 上 运行 它 ， 运 行 时 间 超 过 2.5 小 时 ， 在 ARCHER 64GB 计 算 节点 的 512 核 心 上 运 行 一 这 已 经 戏剧 化 地 减少 到 了 仅仅 超过 半分 钟 。 相 
对 于 单个 核 的 运行 时 间 ， 这 是 一 个 接近 290 的 加 速 比 。 对 于 更 大 的 核心 数量 ， 加 速 比 开始 减少 。 图 4-13 显 示 了 在 1、2、4、8、16、32、64、128、256、512 和 960 个 核心 
上 的 运行 时 间 ， 图 4-14 显 示 了 相对 于 在 一 个 核心 上 的 运行 时 间 的 加 速 比 。 


Rank Product run times 
Data: Standard size (23 292 genes 62 samples) 1024 bootstrap samples 
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图 4-13 1024 引 寻 样 品 〈 即 排列 ) 的 等 级 产品 在 23292 基 因 以 及 62 样 本 的 数据 集 上 的 运行 时 间 。x 轴 是 对 数 刻 度 ， 用 于 显示 在 每 个 执行 中 使 用 的 所 有 核心 的 序列 


从 图 4-14 可 以 看 出 ， 在 较 小 的 核心 数量 中 ， 加 速 比 是 接近 最 优 的 ， 但 越 来 越 小 ， 这 样 到 ?12 个 核心 时 ， 加 速 比 是 289960 个 核心 时 ， 加 速 比 已 经 开始 减少 。 


Rank Product speedup factors 
Data: Standard size (23 292 genes 62 samples) 1024 bootstrap samples 
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图 4-14 ”相对 于 一 个 核心 的 运行 时 间 的 排名 产品 的 加 速 比 。x 轴 表示 对 数 刻度 ， 显 示 每 个 执行 过 程 中 使 用 到 的 所 有 核心 的 序列 


正如 本 节 前 面 所 提 到 的 ， 在 理想 的 情况 下 ， 当 执行 排名 产品 时 ， 将 使 用 10000 和 100000 排 列 之 间 的 某 处 。 图 4-15 显 示 了 当 使 用 16384 个 排列 而 不 是 1024 个 排列 时 ， 相 
同 数据 的 运行 时 间 。 没 有 收集 单 核 和 双核 上 的 运行 时 间 ， 因 为 这 些 时 间 将 超过 12 小 时 。 


4 个 核心 的 运行 时 间 超 过 11 小 时 ， 而 在 912 内 核心 中 ， 运 行 时 间 将 减少 到 小 于 3.5 分 钟 。 


看 着 这 些 最 新 结果 的 加 速 比 ， 相 对 于 4 个 核心 结果 的 运行 时 间 ， 当 在 具有 更 多 引导 程序 样本 的 数据 中 执行 排名 产品 时 ， 揭 示 了 更 多 的 性 能 。 图 4-16 显 示 了 在 912 个 核心 
上 的 加 速 比 为 200， 这 离 最 佳 的 加 速 比 〈 即 228) 并 不 远 ， 相 对 于 4 个 核心 的 运行 时 间 。 


Rank Product run time 
Data: Standard size (23 292 genes 62 samples) 16 384 bootstrap samples 
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图 4-15 在 一 个 有 23292 个 基因 和 62 个 样本 的 数据 集 上 运行 具有 16384 个 引导 程序 样本 〈 即 排列 ) 的 排名 产品 的 运行 时 间 。x 轴 是 对 数 刻 度 ， 显 示 了 用 于 每 个 执行 过 程 中 的 所 
有 核心 的 序列 。 一 个 256 个 核心 的 作业 此 时 没有 执行 ， 因 此 间隔 为 128 和 512 之 间 


Rank Product speedup factors 
Data: Stamdard size (23 292 genes 62 samples) 16 384 bootstrap samples 
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图 4-16 在 一 个 有 23292 个 基因 和 62 个 样本 的 数据 集中 ， 具 有 16384 个 引导 程序 样本 〈 即 排列 ) 的 排名 产品 的 4 个 核心 的 运行 时 间 的 加 速 比 。x 轴 是 对 数 刻 度 ， 显 示 了 用 于 每 
个 执行 过 程 的 所 有 核心 的 序列 。 一 个 256 个 核心 的 程序 此 时 没有 运行 ， 因 此 间隔 为 128 和 512 之 间 


最 后 ， 源 于 我 们 原始 的 23292 个 基因 ， 一 个 数据 集 由 500000 个 变量 组 成 ， 提 供 了 一 个 大 小 相当 的 NGS 数 据 集 。 在 这 个 具有 16384 个 引导 程序 样本 中 运行 排名 产品 ， 单 
个 核心 和 小 数量 核心 中 的 运行 时 间 是 过 多 的 。 事 实 上 ， 在 ARCHER 中 ， 在 运行 时 间 降 到 12 小 时 以 下 前 ， 需 求 256 个 核心 。 在 912 个 核心 中 ， 运 行 时 间 下 降 到 仅 仪 2 小 时 以 
下 ， 有 3.44 的 加 速 比 ， 相 对 于 256 个 核心 的 运行 时 间 一 接近 最 优 值 3.56。 很 明显 ， 这 些 结果 表明 ， 对 于 较 大 的 数据 集 和 较 大 数量 的 引导 程序 样本 ， 访 问 超级 计算 机 中 的 大 
量 的 核心 在 执行 时 间 上 会 有 一 个 戏剧 化 的 影响 ， 但 这 显然 是 依赖 于 算法 的 。 


4.6.8 结论 
这 或 许 是 显而易见 的 事实 ， 但 这 是 值得 重复 的 ， 当 在 一 台 超 级 计算 机 上 有 访问 数 干 个 核心 时 ， 你 是 否 可 以 实际 利用 大 量 的 核心 来 得 到 好 的 效果 ， 这 不 仪 依赖 于 你 问题 
的 大 小 ， 而 且 还 依赖 于 你 想 要 应 用 于 它 的 算法 ， 更 重要 的 是 它 的 实际 实现 。 


随机 森林 和 排名 产品 的 性 能 结果 提供 了 前 两 个 因素 的 示例 ， 问 题 大 小 和 算法 。 在 随机 森林 示例 中 ， 两 个 数据 集中 较 小 的 数据 集 人 在 使 用 32 个 核心 时 ， 运 行 时 间 达 到 了 最 
快 ， 而 较 大 的 数据 集 在 使 用 128 个 核心 时 ， 运 行 时 间 达 到 最 快 。 比 较 随机 森林 与 排名 产品 的 性 能 ， 在 具有 较 小 数量 的 引导 程序 样本 的 较 小 数据 集中 ， 当 具有 512 个 核心 时 ， 
后 者 达到 最 快速 的 运行 时 间 和 最 好 的 加 速 比 。 然 而 ， 当 引导 程序 样品 的 数量 首先 增加 ， 然 后 数据 的 大 小 增加 时 ， 在 高 核心 数量 中 ， 当 加 速 比 接近 最 优 时 ， 运 行 时 间 得 到 了 
戏剧 性 的 变化 。 


此 外 ， 在 超级 计算 机 上 减少 运行 时 间 是 可 以 实现 的 ， 例 如 ， 当 参数 最 优化 或 者 问题 解决 需要 频繁 运行 时 ，ARCHER 一 般 会 友 挥 它 的 最 大 用 处 。 对 于 一 次 性 分 析 ， 可 以 
减少 运行 时 间 和 问题 的 大 小 ， 这 需要 权衡 创建 提交 脚本 和 在 作业 队列 中 等 候 的 时 间 需 求 。 然 而 ， 重 用 现 有 的 高 度 优化 的 包 ， 比 如 SPRINT 包 ， 可 以 在 你 的 笔记 本 电脑 上 对 你 
的 代码 进行 先 验 检验 ， 可 以 显著 减少 实现 并 行 代码 所 付出 的 努力 ， 这 些 并 行 代码 可 以 有 效 地 利用 超级 计算 机 架构 。 
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在 本 章 中 ， 已 经 向 你 展示 了 如 何 编写 自己 的 并 行程 序 ， 并 使 它们 在 R 中 可 直接 调用 。 你 也 学 会 了 如 何在 这 样 的 并 行程 序 中 创建 自己 的 小 程序 ， 并 将 它们 放 入 一 个 R 包 
中 ， 然 后 你 就 可 以 在 其 他 R 程 序 中 重新 使 用 它们 。 已 经 介绍 了 SPRINT 包 并 研究 它 的 架构 来 展示 你 可 以 如 何 组织 自 己 的 包 ， 或 者 ， 使 用 SPRINT 包 本 身 并 将 自己 的 并 行程 序 
包括 在 它 内 。 


最 后 ， 本 章 展示 了 在 超级 计算 机 上 如 何 使 用 基于 MPI 的 R 包 开 上 友 数 百 或 数 干 个 核心 来 戏剧 性 地 提高 R 程 序 的 性 能 。 


在 下 一 章 中 ， 将 我 们 的 注意 力 从 开发 世界 上 最 昂贵 的 超级 计算 机 转移 到 潜伏 在 你 笔记 本 电脑 和 台式 计算 机 中 的 公认 的 更 容易 访问 的 超级 计算 机 上 ， 图 形 处 理 
器 (GPU) 。 我 们 将 探索 如 何 通过 便携 式 高 性 能 开放 计算 语言 (Open CL) 利用 GPU 的 特殊 并 行 和 向 量 处 理 架 构 。 你 将 学 习 如 何 使 用 R 中 的 GPU 来 利用 数 干 个 更 简单 的 处 
理 器 ，GPU 通 常 仅仅 用 于 系统 加 速 图 形 绘制 中 ， 为 更 一 般 的 高 数值 计算 获得 每 秒 10 亿 浮 点 运算 性 能 。 


Roe ”笔记 本 中 的 超级 计算 机 


在 本 章 中 ， 我 们 将 使 用 R 语 言 解锁 图 形 处 理 器 的 并 行 计算 能 力 ， 从 而 使 我 们 能 处 理 某 些 潜 在 的 、 每 秒 10 亿 浮 点 运算 和 每 秒 10 的 12 次 方 浮 点 运算 性 能 的 向 量 计算 。 为 
此 ， 我 们 需要 挽 起 独子 ， 获 取 技 术 ， 以 及 走出 以 前 我 们 对 R 语 言 认 知 的 舒服 地 市 。 


在 本 章 中 ， 我 们 将 遇见 的 新 的 概念 、 框 架 和 语言 ， 包 括 : 
- OpenCL 
: ROPenCL 一 提供 关于 使 用 DpenCL 的 抽象 接口 的 R 包 。 
- 单 指令 多 数据 流 (SIMD) 向 量 并 行 性 。 
- 在 R 中 直接 执行 C (C99) 语言 代码 。 
- 开发 ROpenCL 距 离 度 量 的 实现 作为 常用 的 聚 类 算法 。 


是 时 候 穿 上 你 的 实验 服 并 戴 上 你 的 锡 箔 帽 了 .…… 


5.1 OpenCL 


开放 计算 语言 (OpenCL) 是 编写 在 包括 CPU、GPU、 数 字 信 号 处 理 (DSP) 以 及 现场 可 编程 门 阵列 (FPGA) 等 混合 设备 的 异 构 计算 平 台 上 执行 的 便携 式 高 性 能 程 
序 的 行业 标准 框架 。OpenCL 能 通过 笔记 本 电脑 、 台 陈 计算 机 、 超 级 计算 机 ， 甚 至 手机 设备 进行 操作 。 


OpenCl 最 初 由 苹果 公司 在 2008 年 开发 ， 但 是 随后 迁移 入 由 Khronos Group 主办 的 开放 标准 API。 苹 果 (Apple). ZRER (Intel) , f$ (NVIDIA) 、AMD、 
Google, Wh (Amazon) 、IBM、 微 软 (Microsoft) 以 及 计算 行业 的 其 他 重要 公司 都 是 它 的 成 员 。 


除了 OpenCL 外 ，Khronos 监 督 一 系列 相关 标准 ， 最 突出 的 是 ， 长 期 建立 的 开放 图 形 库 (OpenGL) ， 它 定义 了 非常 适用 于 高 性 能 3D 图 形 绘 制 的 APl。 甚 至 ,OpenCL 
和 OpenGL 都 用 于 交互 操作 ， 使 得 可 以 在 相同 的 GPU 设备 上 进行 高 效 、 广 义 计 算 和 结果 的 图 像 绘 制 。 


OpenCtl 的 最 新 版 本 是 2.0， 在 2013 年 年 底 发 布 ， 但 是 你 将 遇见 的 很 多 计算 设备 仍然 参考 OpenCL 的 早期 版 本 ， 通 常 是 1.2。 这 个 版 本 是 在 我 的 mid-2014Apple 
MackBook Pro 设 备 上 运行 的 OS X 10.9.4。 为 了 本 章 的 目的 ， 对 于 支持 OpenCL 1.2 和 2.0 来 说 ， 在 API 调 用 上 没有 什么 重要 的 不 同 。 


Kw OpenCL 资 源 
下 面 是 一 些 免 费 的 关于 OpenCL 的 在 线 资源 ， 它 们 提供 了 本 章 以 外 的 一 些 有 用 的 参考 和 技术 细节 : 
- https://www.khronos.org/registry/cl/specs/opencl-1.2.pdf: © &,4- f OpenCL 1.2API 规 范 的 完整 描述 。OpenCL API 规 范 的 其 他 版 本 可 以 在 Khronos 网 站 上 找到 。 
- https:/ /www.khronos.otg/tegistty/cl/sdk/1.2/docs/man/xhtml/: 它 包含 易于 网 页 导航 的 API 在 线 版 本 手册 。 
* https://www.khronos.org/registry/cl/sdk/1.2/docs/OpenCL-1.2-refcard.pdf: 它 包 含 了 一 个 API 的 快速 提示 格式 的 参考 卡 。 
* https://www.khronos.org/conformance/adopters/conformant-products/#opencl:Khronos 维 护 一 个 支持 多 个 厂商 的 OpenCL 的 设备 清单 。 
- http://support.apple.com/en-gb/HT5942: 苹果 也 提供 了 支持 OpenCL 的 自己 的 硬件 清单 。 


- https://developer.apple.com/libratry/mac/documentation/ Performance/Conceptual/OpenCL_MacProgGuide/Introduction/Introduction.html#/ /apple_ref/doc/uid/TP40008312- 


CHI-SW1: 它 包 含 了 怎样 使 用 OpenCL 编 程 并 优化 其 性 能 的 优秀 阐述 ， 尤 其 是 在 OS X 平 台 上 。 


为 了 获得 最 好 的 开 友 OpenCL 和 GPU 的 能 力 ， 我 们 有 许多 的 概念 以 及 底层 机 制 要 学 习 。 然 而 ， 我 们 首先 将 确切 地 找 出 在 系统 上 运行 的 是 什么 ， 并 分 离 各 个 概念 层 来 进 


TFS. 

查询 你 系统 的 OpenCL 能 力 

我 们 与 OpenCL 的 交互 最 开始 是 通过 C 语 言 的 接口 实现 的 。 这 使 得 我 们 能 直接 查询 Ri 语言 所 运行 的 系统 上 依赖 最 小 的 非 标 准 R 语 言 包 ， 而 且 在 我 们 解决 了 编写 OpenCL 
核 国 数 的 复杂 性 问题 之 后 我 们 还 给 出 C 的 详细 介绍 。 在 下 一 节 中 ， 我 们 将 介绍 专用 的 ROpenCL 包 ， 它 提供 了 用 最 少 的 C 代 码 从 R 与 本 地 OpenCL 进 行 交 互 ， 即 OpenCL 的 核 


SEFC 


你 不 必 担 心 是 否 第 一 次 遇见 这 种 底层 编程 语言 。C 语 言 是 伴随 着 UNIX 系 统 的 创立 而 出 现 的 (OS X 也 是 基于 UNIX 的 ) ， 虽 然 它 看 起 来 有 点 陌生 ,但 它 的 很 多 基本 结构 
和 逮 辑 /表达 语法 与 R 类 似 (R 本 身 就 是 由 C 实 现 的 ) 。C 与 R 的 关键 的 不 同 是 ， 我 们 不 得 不 直接 分 配 和 管理 我 们 在 程序 中 创建 的 任何 数据 项 或 者 对 象 的 内 存 。 相 反 ， 有 自己 管 
理 内 存 ， 我 们 不 用 关心 数值 数据 所 需要 的 内 存 字 节 数 ， 也 不 需要 关心 何 时 我 们 程序 中 的 内 存 自动 释放 以 便 重 用 ， 因 为 R 将 自动 收集 垃圾 。C 也 是 一 个 强 编译 类 型 的 语言 (SZ 
略 C 的 强制 类 型 转换 内 存 指针 ) ， 而 R 是 一 种 多 类 型 解释 型 语言 。 


C 的 简 答 在 线 使 用 教程 可 以 在 以 下 链接 上 找到 : 

: http://www.learn-c.org/ 

- http://www.cprogramming.com/tutorial/c-tutorial.html 
更 深入 的 免费 资源 是 《The CBook》 (可 能 有 点 儿 过 时 ) ， 你 可 以 在 下 面 的 链接 上 找到 它 : http://publications. gbdirect.co.uk/c_book/.« 
尽管 现在 是 C09 和 C11， 但 这 些 最 近 的 C 语 言 标准 被 用 于 OpenCL 的 基础 ，《The C Book》 仍 然 相 关 并 完整 地 介绍 了 语法 和 如 何 编写 C 程 序 。 


R 是 一 个 非常 强大 的 编程 环境 ， 在 其 中 已 经 集成 了 许多 用 其 他 语言 编写 的 包 ， 包 括 C、C++ 和 Java。 我 们 将 利用 从 CRAN (http://cran.r- 
project.org/web/packages/inline/index.html) 上 下 载 一 个 特定 的 包 inline， 它 将 使 我 们 能 够 将 一 个 C 代 码 片 段 作为 一 个 R 函 数 直 接 运行 。 我 们 将 在 下 面 使 用 此 功能 来 定 
义 一 个 函数 ， 该 函数 使 用 多 个 OpenCL API 调 用 来 查询 可 用 的 平台 和 设备 的 配置 : 


> library ("inline") 
> cbody <- ‘cl platform id pfm[1]; cl uint np; 
clGetPlatformIDs (1,pfm, &np) ; 
for (int p = 0; p < np; p++) {/* Outer: Loop over platforms */ 
char cb1[128]; char cb2[128]; cl device id dev[2]; 
cl uint nd; size t siz; 
clGetPlatformInfo(pfm[p],CL PLATFORM VENDOR, 128,cb1,NULL); 
clGetPlatformInfo(pfm[p]l,CL PLATFORM NAME,128,cb2,NULL) ; 
printf ("### Platforms [%d]: %s-%s\\n",p+1,cbl1,cb2) ; 
clGetPlatformInfo(pfm[p] ,CL PLATFORM VERSION, 128,cb1,NULL) ; 
printf("CL PLATFORM VERSION: %s\\n",cbl); 
clGetDeviceIDs (pfm[p] ,CL DEVICE TYPE GPU|CL DEVICE TYPE CPU, 
2,dev, &nd) ; 
for (int d = 0; d « nd; d++) (/* Inner: Loop over devices */ 
cl uint uival; cl ulong ulval; cl device type dt; 
size t szs[10]; cl device fp config fp; 
clGetDeviceInfo(dev[d],CL DEVICE VENDOR,128,cb1,NULL) ; 
clGetDeviceInfo(dev[d],CL DEVICE NAME,128,cb2,NULL); 
printf("*** Devices[%d]: %s-%s\\n",d+1,cbl1,cb2) ; 
clGetDeviceInfo(dev[d],CL DEVICE TYPE, 
sizeof(cl device type) ,&dt,NULL) ; 


printf("CL DEVICE TYPE: %s\\n", 
dt & CL DEVICE TYPE GPU ? "GPU" : "CPU"); 
clGetDeviceInfo(dev[d],CL DEVICE VERSION,128,cb1,NULL) ; 
printf("CL DEVICE VERSION: %s\\n",cbl1) ; 
clGetDeviceInfo(dev[d],CL DEVICE MAX COMPUTE UNITS, 
sizeof(cl uint),&uival,NULL); 
printf("CL DEVICE MAX COMPUTE UNITS: %u\\n",uival) ; 
clGetDeviceInfo(dev[d],CL DEVICE MAX CLOCK FREQUENCY, 
sizeof(cl uint),&uival,NULL); 
printf("CL DEVICE MAX CLOCK FREQUENCY: %u MHz\\n",uival) ; 
clGetDeviceInfo(dev[d],CL DEVICE GLOBAL MEM SIZE, 
sizeof(cl ulong),&ulval,NULL); 
printf("CL DEVICE GLOBAL MEM SIZE: $11u Mb\\n", 
ulval/ (1024L*1024L) ) ; 
clGetDeviceInfo(dev[d],CL DEVICE LOCAL MEM SIZE, 
sizeof(cl ulong),&ulval,NULL); 
printf("CL DEVICE LOCAL MEM SIZE: %llu Kb\\n",ulval/1024L) ; 
clGetDeviceInfo(dev[d],CL DEVICE DOUBLE FP CONFIG, 
sizeof(cl device fp config),&fp,NULL); 
printf("Supports double precision floating-point? %s\\n", 
fp I= 0 ? "yes" : "no"); 
} 
)' 


C(WBHISESEOKBRSATAS, BrERLEBRDIBIBIEZET A. ZIG EEA ^ CHEESE, RACHAS FER (cbody) 中 的 引用 字符 串 。 该 代码 调 
用 4 个 OpenCL API 查 询 函 数 : clGetPlatformlDs、clGetPlatformlnfo、clGetDevicelDs 和 clGetDevicelnfo。for 循 环 的 外 部 遍历 系统 中 定义 的 OpenCl 平 台 的 数量 ，for 
循环 的 内 部 遍历 每 个 平台 中 定义 的 OpenCL 设 备 的 数量 。 实 际 上 ， 第 一 个 循环 一 定 为 一 个 元 素 ， 因 为 我 们 限制 clGetPlatformlDs () 的 调用 返回 一 个 大 小 为 1 的 一 维 C 数 
组 。 因 此 我 们 运行 的 大 多 数 系统 只 有 一 个 定义 的 OpenCL 平 台 。 第 二 个 循环 也 限制 选择 clGetDevicelDs () 的 参数 以 便 只 返回 CPU 和 GPU 类 型 设备 的 信息 。 其 余 的 代码 对 


clGetPlatformlnfo 和 clGetDevicelnfo 进 行 一 系列 调用 ， 每 次 调用 查询 特定 的 OpenCL 配 置 参数 ， 然 后 将 返回 的 配置 值 输出 到 控制 全 。 


S 4 


更 多 关于 C 


在 前 面 展 示 的 代码 中 有 许多 关于 OpenCL 的 看 法 。 
首先 ，C 语 言 中 数组 的 索引 从 0 到 N 一 1， 而 R 是 从 1 到 N。 代 码 各 部 分 的 描述 是 


clGetPlatformIDs (1, pfm, &np) : C 允 许 通 过 引用 加 上 前 级 与 字符 (&) 显 式 地 传递 变量 ， 意 思 是 6 的 地 址 。 引 用 数组 的 变量 总 是 以 引用 的 方式 传递 。 在 这 个 


例子 中 ，pfm 等 于 &pfm[0]。 


for (int d=0; d<nd; d++) : 这 是 一 个 迭代 循环 结构 ， 它 声明 一 个 整数 循环 变量 4，d 在 第 一 次 迭代 时 初始 化 为 零 ， 在 每 次 迭代 的 开始 进行 条 件 判 断 ， 并 在 每 次 迭代 结 
束 时 使 用 ++ 运 算 符 给 4 递增 1， 如 果 n<nd 不 成 立 则 终止 循环 。 


charcb1[128]: 这 将 分 配 一 个 名 为 cb1 大 小 为 128 个 字符 的 字符 缓冲 区 。 因 为 这 是 一 个 局 部 变量 ， 所 以 从 进程 栈 中 分 配 存 储 器 ， 因 此 ， 其 未 赋值 的 内 容 可 以 是 任何 随机 
值 。 


在 C 语 言 中 ， 我 们 使 用 ptintf () 生成 格式 化 输出 到 控制 台 ， 这 与 ptint () 和 paste () 有 点 儿 类 似 。 因 为 C 代 码 放 在 R 字 符 串 中 ， 所 以 我 们 需要 转 义 任何 控制 字符 ， 例 如 
换行 符 〈 例 如 ，"N\n" 变 成 "\N\n") ， 以 便 可 以 通过 R 到 C 的 定义 和 编译 过 程 来 保存 它们 。 


看 一 看 以 下 代码 : 


> clfn <- cfunction(signature(), cbody, convention=".C", 
+ includes=list("#include <stdio.h>", 


+ "#include <OpenCL/opencl.h>") ) 


使 用 inline 包 的 cfunction () BREXGUSEIZBEZXRJRSEUTERZX, WEAR MARU Umit, ARBHAR EIBUCATERRTNTE CRA RCIS EM, NEE 
cfunction () 遂 数 ,调用 识别 我 们 遂 数 期 望 的 任何 参数 (在 我 们 的 例子 中 ， 没 有 传递 参数 ) 的 等 名 和 任何 头 文件 ， 包 括 C 语 言 代码 可 能 调用 的 C 库 函数 中 的 文件 (在 我 们 
的 例子 中 ， 我 们 将 调用 在 stdio.h 中 声明 的 printf () 和 在 opencl.h 中 定义 的 cIX API 调 用 ) 。 


忆 在 其 他 操作 系统 上 的 OpenCL 


有 用 的 是 ，OS X 预 装 了 OpenCL。 但 是 ， 对 于 其 他 操作 系统 ， 比 如 Windows 或 Linux， 你 需要 自己 安装 OpenCL。 以 下 来 自 Intel 的 FAQ 链 接 提 供 了 在 基于 Intel 处 理 器 的 系 
统 上 设置 OpenCL 所 需 的 所 有 建议 : https:/ /software.intel.com/en-us/intel-opencl/faq 


既然 我 们 了 解 了 代码 的 作用 ， 让 我 们 运行 它 : 


> Clifn() 

list () 

### Platforms[1]: Apple-Apple 

CL PLATFORM VERSION: OpenCL 1.2 (Apr 25 2014 22:04:25) 
*** Devices[1]: Intel-Intel(R) Core(TM) i5-4288U CPU @ 2.60GHz 
CL DEVICE TYPE: CPU 

CL DEVICE VERSION: OpenCL 1.2 

CL DEVICE MAX COMPUTE UNITS: 4 

CL DEVICE MAX CLOCK FREQUENCY: 2600 MHz 

CL DEVICE GLOBAL MEM SIZE: 16384 Mb 

CL DEVICE LOCAL MEM SIZE: 32 Kb 

Supports double precision floating-point? yes 

*** Devices[2]: Intel-Iris 

CL DEVICE TYPE: GPU 

CL DEVICE VERSION: OpenCL 1.2 

CL DEVICE MAX COMPUTE UNITS: 280 

CL DEVICE MAX CLOCK FREQUENCY: 1200 MHz 

CL DEVICE GLOBAL MEM SIZE: 1536 Mb 

CL DEVICE LOCAL MEM SIZE: 64 Kb 


ARSCRPUUBIEEERA? fü. 


我 们 可 以 从 输出 中 注意 到 ， 我 的 MacBook Pros&ieAFBRBAE TES — 1 Intel i5CPU 设 备 和 一 个 Intel Iris GPU 设备 的 Apple OpenCl 平 台 。 显 然 ， 你 的 特定 输出 可 能 不 
Ep 


所 有 的 平台 和 设备 都 支持 OpenCL 1.2。CPU 有 4 个 OpenCL 计 算 单 元 (CU) ， 如 果 你 还 记得 在 第 1 章 中 ， 匹 配 其 独立 指令 处 理 线 程 的 数量 。 然 而 ，GPU 有 很 大 数量 的 


CU， 即 有 280 个 。 我 们 可 以 从 制造 商 的 Iris GPU 的 信息 中 确定 有 40 个 SIMD 内 核 执行 单元 (EU) 分 成 了 4 个 分 片 ， 每 个 分 片 包 含 10 个 EU， 每 个 EU 能 够 同时 运行 7 个 线程 
(280 个 计算 单元 = 40 个 执行 单元 x7 个 线程 ) 。 


OpenCl 报 告 ，CPU 可 以 访问 主 存储 器 中 的 16GB， 而 GPU 拥 有 1.5GB 内 存 ， 可 以 从 中 直接 处 理 数据 。 平 台中 OpenCL 设 备 内 存 的 差别 对 于 整体 性 能 以 及 表现 十 分 重 
要 。 在 R 中 ， 数 据 在 CPUI 间 移动 (FRAOpenCL “主机 ”) ， 其 中 将 执行 我 们 的 R 会 话 ， 并 需要 特定 的 OpenCL CH ( 称 为 OpenCL “内 核 ”) 在 传输 数据 上 执行 计算 的 
GPU 设备 是 OpenCL 编 程 模型 的 关键 方面 。 


图 5-1 展 示 了 在 MacBook Pro 设 备 上 的 OpenCl 平 台 的 主要 架构 特性 ， 在 下 一 节 中 也 将 介绍 基本 的 ROpenCl 编 程 模型 。 


ROpenCL Platform: MacBook Pro 


he LI S 


1. getPlatformiDs() 2. getDevicelDs() _ ann 4. | 


NENNEN NE Cicada o ———— — PH 


Host: CPU ^ 到 Device: GPU 
| (Intel Iris : single precision) 


(Intel i5 : double precision) 
Kernel Execution Unit 


(7x SIMD Threads) 


Thread 
4Kb 
Private 


| 32Kb Local Memory 
(shared) 


6. buildKernel() gobal ost". 


ection! icant "cult | 4...) 


16Gb Global Memory co ae aa a ab EE oT =t 
8. enqueueWriteBuffer() 


9. enqueueNDRangeKernel() severed : 


10. enqueueHRHeadBuffer() | Buffers ' ---! 


当 CPU 有 很 少 的 CU 时 ，CPU 能 以 2.6GHz 的 速度 运行 ， 而 GPU 运行 变 慢 ， 最 高 运行 速度 不 会 超过 1.2GHz。 基 于 lnte| 的 产品 数据 ，CPU 能 达到 最 大 166.4GFLOPS 的 浮 
点 运算 性 能 ， 但 GPU 明显 更 快 ， 运 算 性 能 的 峰值 能 达到 768GFLOPS。 当 然 ， 理 论 峰 值 GFLOPS 通 常 在 实际 中 是 达 不 到 的 。 


X GFLOPS 


GEFLOPS 指 的 是 吉 拍 或 者 1000 次 数 以 百 万 计 的 单 精度 “每 秒 浮 点 运算 ”。 它 曾经 是 超级 计算 机 的 经 典 性 能 度量 指标 ， 但 是 随 着 最 近 几 年 技术 的 发 展 ， 单 个 微 处 理 机 能 
够 拥有 GFLOPS 的 性 能 (109FLOPS) ， 正 如 我 们 的 笔记 本 一 样 。 现 在 的 超级 计算 机 以 PetaFLOPS (1018FLOPS) 为 单位 来 度量 计算 速度 。 目 前 世界 排名 最 高 的 是 中 国 天 河 2 
号 超级 计算 机 ， 它 的 峰值 性 能 为 33.86PFLOPS ， 使 用 超过 300 万 个 核心 ， 需 要 24 兆 瓦 电力 (足以 为 20000 个 家 庭 供电 ) 。 还 需要 注意 的 是 : 世界 顶级 超级 计算 机 利用 额外 的 
GPU 协 处 理 器 都 实现 了 它们 的 排名 。 参 考 http://www.top500.org/lists/2015/11/。 


CPU 与 GPU 之 间 另 一 个 显著 的 区 别 就 是 前 者 支持 双 精 度 浮 点 运算 (64 位) ， 而 后 者 只 支持 单 精 度 浮 点 运算 (32 位) 。 大 部 分 最 新 一 代 消 费 级 GPU 在 单 精 度 浮 点 运算 
中 表现 最 好 。 然 而 ， 更 昂贵 的 面向 科学 计算 的 GPU 将 文 持 双 精度 运算 。 


SE Sas Rin 


R 本 身 将 非 整 型 数值 存储 为 双 精 度 浮 点 型 。 我 们 基于 主机 的 R 会 话 和 一 个 只 能 处 理 单 精 度 的 GPU 共享 浮 点 数据 ， 意 味 着 我 们 必须 复制 和 转换 浮 点 数据 进行 双向 转换 操 
作 ， 这 也 使 我 们 的 数据 丢失 精度 。 基 于 我 们 数据 的 数值 域 范围 ， 与 双 精 度 相 比 ， 单 精度 浮 点 数 通常 只 有 2 一 4 位 的 小 数 点 位 数 的 精度 。 虽 然 许 多 形式 的 科学 计算 可 能 需要 64 


位 浮 点 提供 额外 的 精度 ， 但 有 许多 只 需要 单 精度 的 近似 分 析 。 在 本 章 后 面 ， 我 们 将 探讨 使 用 GPU 计算 将 大 量 的 观测 值 和 变量 作为 聚 类 分 析 的 输入 距离 矩阵 。 

正如 先前 暗示 的 ，OpenCL 有 大 量 的 概念 和 API 调 用 ， 其 中 描述 的 许多 功能 超出 了 我 们 的 需要 ， 包 括 多 道 程序 、 多 核 或 多 设备 场景 和 行为 、 图 像 处 理 ， 以 及 图 形 绘制 的 
交互 。OpenCl 是 一 个 复杂 的 接口 并 且 有 很 多 争论 的 地 方 ， 这 可 能 需要 一 整 本 书 来 描述 。 

Q opencl 进 一 步 阅读 


如 果 你 想 了 解 OpenCL 的 所 有 功能 ， 我 建议 你 仔细 阅读 前 面 强调 的 Khronos 资 源 。 你 可 能 也 喜欢 考虑 看 一 本 优秀 的 (即使 有 点 过 时 ) 由 Matthew Scatpino 所 著 的 并 由 
Manning 出 版 社 出 版 的 《OpenCL in Action) o 


我 们 对 OpenCL 的 研究 将 专注 于 学 习 我 们 需要 了 解 的 从 R 中 使 用 GPU 的 知识 。 为 此 ， 我 们 将 使 用 一 个 特定 的 R 包 ， 即 ROpenCL， 它 提供 给 我 们 的 仅仅 是 OpenCL API 的 
接口 ， 我 们 需要 这 些 接口 在 GPU 上 执行 加 速 R 向 量 处 理 。 


5.2 ROpenCLE 


ROpenCl 包 是 由 Willem Ligtenberg 和 本 书 的 作者 共同 开 友 的 ， 它 本 质 上 是 一 个 有 限 学 围 的 R 便 利 函 数 的 集合 ， 这 些 函 数 封闭 了 OpenCL C API 并 简化 了 其 复杂 性 的 很 
多 方面 。ROpenCL 包 装 器 是 用 C++ 实现 的 ， 并 且 依 赖 于 Rcpp 包 ，Rcpp 包 可 以 从 CRAN 包 仓库 中 下 载 。ROpenCL 还 不 是 CRAN (尽管 在 本 书 出 版 后 可 能 改变 ) 的 一 部 分 并 
且 它 必须 从 源 文件 中 安装 。 你 能 够 直接 在 你 的 R 会 话 中 做 这 些 工作 ， 如 下 所 示 : 


> install.packages("ROpenCL", type="source", 


repos="http://repos.openanalytics.eu") 


5.2.1 ”ROpenCl 编 程 异型 


在 本 章 中 我 们 将 利用 ROpenCL API 遂 数 ， 它 们 的 支持 概念 以 及 怎么 使 用 它们 都 尽 结 在 下 表 中 并 按 顺 序 显示 ， 它 们 通常 被 典型 的 OpenCL 程 序 调用 一 API 调 用 的 编号 序 
列 为 1 到 10， 也 在 本 章 前 面 的 图 中 摘 述 。 但 是 ， 如 果 你 更 喜欢 首先 看 看 真实 的 代码 ， 然 后 向 前 跳 几 页 到 下 节 可 以 看 到 一 个 简单 向 量 相 加 的 例子 ， 然 后 再 返回 到 这 个 表 获 得 
使 用 每 个 函数 的 一 个 详细 解释 。 


ROpenCL API 函数 fe 述 
getPlatformIDs () 在 本 一 广 中 ， 我 们 已 经 过 到 了 CL API fj 5 ffr eR 
VA PR XOR HI ID IIIA. 我 们 需要 一 个 平台 ID IBERIA. 38r. 3x PR GG [nl 
platformID 是 一 个 不 透明 的 引 | 一 个 只 包含 一 个 PlatformID 的 列表 
用 ， 该 引用 不 能 被 主机 解释 
getDeviceIDs (PlatformID) (EW mp, dfe Awe FEN CL API AYE ffr eR ZG 
VA PR KOR Iul i # ID 的 列表 我 们 需要 设备 ID 来 引用 GPU 以 便 创 建 一 个 相关 联 的 环境 、 命 令 


DeviceID 是 一 个 不 透明 的 引用 ， | 队列 和 内 存 缓冲 区 ， 执 行 我 们 的 核 吨 数 


ROpenCL API 函数 
该 引用 不 能 被 主机 解释 


getDeviceInfo(DeviceID) 

i eR Rr i [n] — 1 fitr 95 BS 

X T SSN nm Hidg c Dn Be 
Fl GE p OpenCL 说 明 书 中 ， 目 前 
为 了 版 村， http://www.khronos. 
D / 
docs /man/xhtml/clGet-Device- 
Info.html 


Org/registry/cl/sdk/z. 


deviceS5upportsDouble 
Precision 
devicesupportssingle 
Precision 
deviceSsupportsHaltf 
Precision(DeviceID,list] 
iki ERIS] True 或 者 False 
im A iE p EGER El True + H BE 
list $M, list 是 详 述 设备 支持 的 精 
EAA. inf. NaN Sip Ede 


createContext(DeviceID) 

i& eB GR Pl contest ( E F X). 
Context RH HE E LEE S LT 8 RH 
的 引用 

createBurrer (Context, Memory 
Flag, 

GlobalWorksizen, 

Rob ect } 


(5E) 
a 述 


这 个 调用 的 ROpencL API Ses D 的 返回 列表 进行 排 计 ,使 
得 GPU 设备 ID 排 在 第 一 

ROpenCL 也 提供 一 个 便利 函数 来 测试 来 日 deviceID 的 设备 的 类 
AY. Wü, getDeviceType(DeviceID) GPU 设备 退回 一 个 "GPU" 
并 为 GPU 设备 退回 一 个 "CPU" 


FINCA PT Pawel Se Pee) CLAP! Sire ee 

getDeviceInfo 的 ROpencL 变 体 是 一 个 恒利 函数 ， 它 在 一 个 调用 中 
ii [p] 3e TF eM AO Ae. 有 70 ST uUeEISESS.JFHITIE 
标准 OpenCL (B, He NEUE a d dii 

POLAR Marat Bv AMARENS. ny 
AC Sri) OpdnCL Serm dE. (un. TRE se EnIDHpEHOHI 
I ee ee) SE. np PTE PREX: 

dinfo s- getbeviceInfol 

gpuID 

! 

locMem «- dinfo$CL DEVICE LOCAL MEM SIZE 

gloMem «- dinfo$CL DEVICE GLOBAL MEM SIZE 

ROpenCL 提供 了 deviceSupportsPrecision p *W E 7 [d iH E 
EEEE rp np ELI] S 8 01368 m] Be mE ER eP 

BOpenCL 4 fih — Ere mq iH getDevicelInfol) MA EH 
ie., DERE ASMA. Fo, iT 
GPU Hite) SARA S. MCU. d [UEHDSHH 5 
精度 ， 需 要 使 用 不 用 耳 数 和 震 数 的 类 型 ， 因 此 征 要 OQpenCL ARARA 
As [eal Sz 3I 

UHAT R ERRANETAN, Rea A 
E, RACHA SABER PEL OME. Wm FER: 
CL DEVICE [DOUBLE|SINGLE|HALF] FP CONFIG 

FHRS 16 位 祥 点 运算 相 一 致 并 且 现 在 只 由 少数 GPU EE. 
XXX E NVIDIA 


这 个 函数 创建 一 个 OpenCL Conrext 类 型 .一 个 临时 的 容器 ， 在 
革 些 方面 娄 似 于 一 个 及 会 话 

Conrext 从 一 个 平台 内 部 建立 了 一 组 选 定 的 设备 ， 它 们 将 进行 变 
SHE. ERNMASY, BA Pee (EH) 的 CPU 481 GPU (48 
fi DeviceID 确定 ) 以 及 通过 其 他 的 上 AI 调用 ， 它 苑 许 我 们 将 诅 冲 
区 关联 到 管理 设备 内 在 和 Commandoueue LJ [8 TE v3 a SK f$ 15 B 
【从 7 同盟 冲 器 传送 数据 ) 和 指令 (EAE) 

这 个 函数 在 与 Context 与 主机 上 的 相反 ) 相关 联 的 设备 上 创建 一 
个 特定 的 全 局 肉 存 组 冲 区 ， 以 便 保 存 

由 提供 的 Object E X. f CBA Hi rds GlobalWork- 
Size Mit. WA RObject 是 integer 3E, WARTANE GHH 


ROpenCL AP! 函数 
i gr IG [n] — 2€ nh 


该 返 回 值 基 不 能 由 主机 解释 的 到 设 


备 缕 冲 区 的 不 延明 的 引用 


createBufferFloatVector( 
Context, 

MemoryFlag, 
GlobalWorksSize) 

iR GE [5] — TER 


createBufferlnteger 
Vector( 

Context, 
MemoryFlag. 
GlobalWorksSize) 


i BR GR E — 1 5E P EC 


buildkKernel | 
Context, 
RernelSource, 


RernelName, 


==. ] 
xt ]- B8 GB [d — a 


iE [d fe ET 8 ER BU] Bo de — T 
MMS, BEEN EULSERE 


(Ei) 
H H 


createbufferintegervector(); MW, W Robject 是 numeric 
类， 那么 该 函数 将 调用 createbpufferFloatVector() 

Context 是 createContext () WE PHA 

MEmoTYELag 和 证 儿 如 何 通 过 设备 个 或 与 访问 明 冲 区 。 郊 证 的 值 是 
"CL MEM READ ONLY" 或 者 "CL MEM WRITE ONLY" 

GlobalWorksize fÈ jS Œ RObject AM MEM) d S. m An, 
4 XR RObject d —-TRIEE,. Hp iH GlobalWorksize-length 
[RObject) ， 昌 然 如 我 们 稍 后 将 讨论 的 ， 对 于 调用 enqueven—drange- 
kernel () $43, JẸ GlobalWorksize $ *X 4^ Ai d LocalWorksize 
值 的 整数 信 

这 个 前 娄 在 设备 上 创建 广 一 个 特 奈 的 全 局 内 存 蛮 冲 区 来 保存 C 讲 
类 型 cl float ( 32 位 单 精度 泽 点 型 值 ) D GlobalWorkSize T 
fu il nt 

Context; 性 | 用 前 面 代码 片段 的 createBuffer 1) 

MemoryFlag: 5H mR EZB] createBuffer (} 

i& PE Se ee EXE PRI) — aA S/R, ETER EHRE 


> RE Se ele [THR SRAFRMHR ERE CÓ 
AEN cl int (32 位 整数 值 ) 的 GlobalWorkSize 个 数据 项 
Context: 引用 前 面 的 代码 片段 的 createBuffer {) 
MemoryFlag: 引用 前 面 的 代码 片段 的 createBuffer į] 
退回 值 是 设备 组 冲 区 的 一 个 不 透 关 的 引用 ， 它 不 能 敏 主机 解释 


fE A fg 4h. ROpencL 包 HJ buildKernel () A €* BP clCcreate- 
Program, clBuildProgram, clCreateKernel MM ciSet- 
KernelArgiM' r2 miE—oGd. BEM program Ss HIER 
i), FARR eee AR). SRE., EPA Ba or ll 
创建 了 一 个 Erogram 对 和 象 。 整 个 OpenCL API 充 许 任意 数量 的 核心 
与 一 个 Program fff 4H 3c Hk 

Context fe createContext() 的 返回 值 

iq SES T — PRE RITARA OpenCL C ERE 
(H KernelSource 提供 )， ix TEEDEXT—TGHEBE CT 
在 KernelName 中 声明 ) 并 且 将 它 编 详 为 了 一 个 表单 ,该 表 单 可 以 
在 OpenCL 设备 内 由 计算 单元 执行 

这 个 编译 过 程 与 本 一 六 面 使 用 的 从 inline 包 的 c£unction() Wi 
Ate iL. PI. ERAAN OpenCL 编译 过 程 是 更 复 热 的 ， 国 为 
它 使 用 了 一 个 特制 的 C99 编译 器 并 且 不 得 下 把 执行 代码 的 生成 是 疝 
ene. ie GPU 代码 通常 与 编译 在 主机 CPU 上 执行 的 代码 
完全 不同 

编译 核心 基 一 组 指令 ,它们 可 以 由 应 用 于 设备 的 (名 六 上 的 名 配 ) 
部 分 缓冲 区 数 中 的 设备 中 的 每 个 CU 来 执行 。 对 于 一 个 核 函 数 应 该 怎 


ROpenCL API 函数 


buildKernel { 

Context, 

KernelS5ource, 

KernelHame, 

T 

iX A SG [p] — T E 

ia PAH T: 38 FE I] ED — TP 
AHHH. FERRER DLE 


createCommandQueue (Context, 

DeviceILD) 

该 函数 返回 一 个 Queue (BAF) 

该 返回 值 是 一 个 对 Queue 的 不 透 
ASIAN, EER ELA 


enqueueWriteBuffer(Queue, 


Buffer. GlobalWorkSize, 


RObject) 
该 函数 返回 void 


EF 
描 述 


伴 句 码 有 特殊 的 需求 ， 包括 用 于 引用 不同 肉 存 区 域 ! 人 全局、 局 部 和 私 
A) 中 的 可 用 数据 的 cl types M— TEAR ER SEC WBE 
个 工作 项 上 操作 。 核 函数 将 在 本 章节 后 面 详细 讨论 

任何 传递 给 buildKernel1() 的 附加 及 震 数 都 会 被 捕 歼 并 作为 附 
IZ AeA Ae (LIPASE). SERS FA. DES 
Ct TEA SERR B1 O OpenCL C Sere, ix EE nT L H ee 7E 
cl int, HA ARH Hcl float (HjclSetKernelArgFloat). 
复制 所 有 其 他 类 型 的 Robject FHHENEPBAE BETES (ATES 
针 纪 | 用 clSetKernelArgMem) 

通过 运用 enqueueNDRangKernel1}) ABCA RP eae T E E 
HER BÀ, n Py EUBETE BS fe Ae f ET 


cer pA 9] dé E BL ER Lapis X dem Ep. (sx 
Context P, Queue 5 — T fbEB SB X—T5 sn EDT. 
Jc ir] pA i 

在 ROpencL 中 ， 队 列 通常 是 “按照 顺序 ”创建 的 ， 这 意 昧 着 操作 
是 按照 它们 应 用 于 队列 中 的 顺序 执行 的 ， 这 些 是 符 音 我们 的 目的 的 。 
在 完全 OpenCL 中 ， 相 列 可 以 不 接 硕 序 创 建 ， 这 意味 着 该 设备 可 以 
在 栅 列 中 用 它 认 为 效率 量 佳 的 操作 上 自由 地 抠 行 任何 命令 


MEH ARES. iX T ER EU EE — TAR RAAT Zee 
H (H. EEE enqueueNDPBangeEernel Bi) LIH E 
i] R xrse mss A (ei e d e 9 | HI EE SEXE PIX HB 

GlobalWorkSize 定义 将要 从 Rope E mm e 58 np m) v dte nt 
Nee, pn T RBS. AEREN. 

在 完全 OpenCL rp, > gm SERT LER XE SL DH 3E 75 36 MR FE. YE 
ROpenCL 中 ,后 者 的 行为 是 强制 执行 的 ， 这 意味 着 在 函数 调用 
return 之 前 ,设备 特 把 主机 及 «3 099] 9] 58 nh IXCrB 

愉 主 机 的 角度 来 看 ， 调 用 这 个 函数 对 核 本 歼 的 执行 排 成 

Kernel 对 数据 式 的 每 或 技 行 称 为 一 个 WorkItem 

Kernel Xf £i E TE PE TE BI m gl gE i Ue: EE RB IX XE $3 nT 
用 ,通过 前 面 的 enqueueWHriteBuffer 调用 特 主 机 数据 复制 到 
S nn IX 

GlobalWorkSize SMe VET Kemel 上 的 工作 /数据 更 的 
数量 (Gif). GlobalWorkSize 可 以 是 标量 ,在 这 种 情况 下 ， 工 作 
项 空间 仪 仪 基 一 维 的 ， 也 就 是 说 ,在 "NDRange" 中 "MN" 的 值 基 1. 
GlobalWorkSize 也 可 能 是 1、2 或 3 个 元 素 的 向 量 ， 定 闵 工 作 项 空 
间 范 围 是 一 维 、 两 维 或 三 维 空间 的 形式 

LocalWorkSize Éé—-T uie £e. dm Ei Bud, 
ERA Si ASEH. LocalWorkSize Tf WorkItems 的 完全 全 局 
范围 划分 为 不 同 的 工作 组 ， 每 个 工作 组 的 数量 是 localworksize。 


ROpenCL API 函数 


enqueueNDRangeKernel (Queue, 
Kernel, GlobalWork3ize, 
LocalWorkSize) 


FAR Tux [a] void 


enqueueReadButftfer I 
Queue, 

Buffer, 
GlobalWorkSize, 
RObject) 

该 明 数 返回 Robject 


releaseBesources ( ane.) 


HASUR [8] void 


(SE) 
Ho o 

WorkGroup 通过 一 个 设备 计算 单元 执行 。 一 个 计算 单元 可 以 启 动 许 
多 的 执行 线程 来 最 有 效 地 在 WorkGroup 中 局 部 地 执行 WorkItems。 
可 以 同时 在 一 个 计算 单元 中 同时 执行 的 线程 【或 处 理 元 素 ) 的 精确 数 
量 是 特定 于 GPU 设备 的 体系 结构 。 选择 LocalWorksize 的 最 优 数 
量 ， 将 在 本 章 进 一 步 讨论 

在 完全 OpenCL 中 ， 这 个 函数 可 以 以 非 阻塞 或 阻塞 方式 操作 。 在 
ROpenCL 中 ， 后 者 的 行为 被 强制 执行 (主要 因为 R 本 身 基 本 上 是 单 
线程 实现 )， 这 意味 着 该 设备 将 在 该 国 数 调用 return 之 前 ， 在 所 有 
CHE /数据 项 上 执行 Kernel 


从 主机 的 衣 度 来 看 ， 这 个 录 数 应 该 在 一 个 核 函 数 执行 之 后 被 调用 
( HII. ERE enueueNDRangeKernel 之 后 ), 将 引用 设备 缓冲 区 IE 
的 计算 值 复制 到 适当 的 主机 及 对象 中 例如 ， 一 个 预 分 配 大 小 的 
[n] 5i 

GlobalWorksize TF X Mi tt S mn 区 iJ nil 到 及 对 5 中 H3 Ti 15 
项 的 数 H, 例如 > SFT RE jE] H, 其 长 度 至 少 是 GlobalWork- 
Size 

在 完全 OpenCL 中 ， 这 个 因数 可 以 以 非 阻塞 或 阻塞 方式 操作 。 在 
ROpenCL 中 ， 后 者 的 行为 被 强制 执行 ， 这 意味 着 该 设备 将 会 在 函数 
调用 return 之 前 将 数据 从 Buffer 复制 到 主机 及 WS 


从 主机 的 fA pE 3 H x jT PK 数 应 该 在 所 有 的 ROpench j FASE 成 之 
后 被 调用 ,以便 释放 所 有 底层 系统 分 配 的 资源 
可 选 参数 可 以 用 来 定义 要 释放 的 资源 的 子 集 ， 而 不 是 所 有 已 分 配 的 
资源 。 例如， 以 前 分 配 的 内 存 缓冲 区 可 以 显 式 地 释放 ， 留 下 完整 的 上 
F3. 、 队 列 和 核心 以 便 重用 于 进一步 的 计算 


1 一 个 简单 的 向 量 加 法 例子 


我 们 将 先前 表格 中 描述 的 ROpenCL 程 序 模型 应 用 到 一 个 例子 。 两 个 向 量 的 对 应 元 素 的 加 法 ，c = a + b。 为 了 使 例子 更 加 有 趣 ， 这 两 个 向 量 将 含有 超过 1200 百 万 个 元 
素 。 看 看 下 面 的 代码 : 


# First look-up the GPU and create the OpenCL Context 
platformIDs <- getPlatformIDs() 

gpuID <- getDeviceIDs (platformIDs[[1]]) [[1]] 

dinfo «- getDeviceInfo(gpuID) 

context «- createContext (gpuID) 


# Initialise the input data in R on the CPU (Host) 
# and pre-allocate the output result 


dVector s- seqí(1.0, 12345678.0, by=1.0) # Long numeric vector 
bVector «- se@q(12345678.0, 1.0, by--1.0) # Same but in reverse 
cVector «- repí(0.0, lengthí(avector)] # Similar result vector 


LocalWorksize = 16 # GPU/kernel dependent (explained later) 

4 globalWorksize must be integer multiple of localWorksize 

GlobalWorksize = ceiling(lengthiaVector) / LocalWorksize) * 
LocalWorksize 


# Allocate the Device's global memory Buffers: 2x input, 1x output 

aBuffer «- createBuffer(context,"CL MEM READ ONLY", 
lengthíaVector),aVector) 

bBuffer «- createBuffer(context,"CL MEM READ ONLY", 
length í(bvector),bvector) 

cBuffer «- createBufferFloatVector(context,"CL MEM WRITE ONLY", 
lengthí(cvector)?) 


# Create the OpenCL C Kernel function to add two vectors 

kernelSource e- ' 

__ kernel void vectorAdd( global float *a, X global float *b, 
_ global float *c, int numDataltems) 


int gid = get global id(0); // WorkItem index in 1D global range 
if (gid »- numDatalItems) return; // Exit fn if beyond data range 
c[gid] = a[gid] + b[gid]; // Perform addition for this Workritem 


])" 
vecAddKernel «- build&Kerneli(ücontext,kernelSsource,'vectorAdd', 
aBuffer,bBuffer,cBuffer,lengthi(aVector))] 


# Create a device command queue 

queue <- createcommandQueue (context ,«g]puILD) 

4 Prime the two input Buffers 

enqueuewWriteRuffer(queue,aBuffer,length(aVector),aVector) 

enqueueWriteRuffer(queue,bBuffer,lengthibVector),bVector) 

# Execute the Kernel 

enqueueNDRangeKerrnel (üiqueue,vecAddkKernel, 
GlobalWorksize,rLocalWorksize] 


* Retrieve the calculated result 
enqueueReadBufferí(queue,cBuffer,length(cVector),cvector) 


* Finish up by relinquishing all the ROpenCL objects we created 
releaseResourcesí] 


如 果 你 运行 前 面 的 R 脚 本 代码 ， 它 在 我 的 MacBook Pro 设 备 上 化 费 了 不 到 1 秒 ， 你 会 友 现 在 向 量 c 中 每 个 元 素 的 结果 值 设置 为 12345679。 如 果 是 这 样 ， 祝 贯 你 ! 你 已 
成 功 地 使 用 R 在 你 系统 的 图 形 处 理 器 上 执行 了 数据 并 行 代码 ! 


前 面 的 代码 有 很 多 方面 需要 进一步 解释 ,特别 是 GlobalWorkSize 与 Local-WorkSize 和 核 函 数 本 身 的 定义 、 它 使 用 的 get_global id () 函数 ， 以 及 它 如 何 利用 内 存 。 


这 些 是 下 一 节 讨 论 的 主题 。 
2. 核 函数 
我 们 在 之 前 的 向 量 相 加 例子 中 使 用 的 核 浮 数 有 具有 以 下 的 定义 : 


kernel void vectorAdd( global float *a, _ global float *b, 
| global float *c, int numDataItems) 
{ 
// WorkItem index in 1D global range 
1 int gid = get global id(0); 
// Exit fn if beyond data range 
2 if (gid >= numDataItems) return; 
3 eigid] = a[gid] + b[gid]; 


首先 要 注意 的 是 对 函数 签名 的 _kernel 限 定 符 的 使 用 。 这 告诉 OpenCL 编 译 器 专门 编译 这 个 函数 作为 核 函 数 执行 设备 。 


在 核 函 数 内 部 ， 执 行 的 第 一 行 确定 该 函数 调用 要 处 理 娜 个 全 局 工作 项 的 集合 。 调 用 get_global id (0) 在 要 处 理 的 全 局 工作 项 的 总 数 (GlobalWorkSize) 中 返回 该 核 
函数 调用 的 索引 。 (对 于 一 维 ， 请 参阅 本 章 后 面 的 “了 解 NDRange” 小 节 。) 它 有 助 于 将 OpenCL 视 为 对 vectorAdd () 执行 N 个 单独 的 调用 ， 每 个 全 局 工作 项 都 有 一 个 
调用 。 在 我 们 的 例子 中 ，N 设 置 为 要 添加 的 向 量 大 小 (但 向 上 取 整 为 LocalWorkSize 的 整数 倍 ， 请 看 下 面 的 内 容 ) ， 每 个 工作 项 对 应 于 对 输入 向 量 (a 和 b) 的 每 个 不 同 元 
素 执行 的 加 法 。OpenCL 后 台 会 在 设备 上 执行 许多 次 循环 迭代 ， 如 下 所 示 : 


# OpenCL NDRangeKernel pseudo-code device for-loop 
for (id in 0:globalWorkSize-1) { 
invokeKernel (get global id(0)-id, vectorAdd(a,b,c,length(a))) 


OpenCLl 的 关键 特性 是 这 个 概念 上 的 for 循 环 并 行 同时 执行 所有 的 迭代 。 现 实 是 ， 当 然 不 是 那么 直接 。OpenCL 可 能 需要 计算 迭代 空间 的 子 集 作为 并 行 执行 的 顺序 ， 以 
适应 可 用 的 设备 资源 ， 但 有 用 地 ，OpenCcL 代 表 我 们 管理 设备 利用 的 许多 万 面 。 


Ne GlobalWorkSize-5 LocalWorkSize: JL4E4& £A G8], RRRA AAA V BA A MenqueueNDRangeKernel () 的 GlobalWorkSize 参 数 是 LocalWorkSize 的 整数 倍 。 特 别 
地 ， 在 OpenCL 2.0 下 ， 这 个 要 求 比较 宽松 。 然 而 ， 现 有 的 OpenCL 了 驱动 程序 实现 滞后 于 最 新 发 布 的 标准 ， 并 且 在 本 书 出 版 后 的 一 段 时 间 内 仍 将 继续 使 用 。 当 调用 
enqueueNDRangeKernel () 中 没有 明确 提供 这 些 值 时 ， 其 中 一 些 驱 动 程序 实现 在 计算 合适 的 Local WorkSize 值 时 效果 很 差 。 因 此 ， 最 好 在 你 的 特定 系统 上 采用 防御 性 编程 方 


法 ， 显 式 设置 Local WorkSize， 并 确保 Global WorkSize 是 一 个 准确 的 整数 倍数 。 


实验 可 能 需要 为 你 的 特定 计算 获得 最 佳 性 能 的 LocalWotkSize 值 ， 因 为 它 取 决 于 在 本 地 和 私有 内 存 以 及 内 部 存储 器 的 特定 功能 在 设备 的 内 部 资源 消耗 量 。 一 个 核 函 数 调 
用 所 需 的 资源 越 多 ， 一 般 来 说 它 的 WorkGroup 最 佳 大 小 越 小 ， 因 为 较 少 的 资源 可 用 于 支持 许多 单独 同时 执行 的 线程 。 与 CPU 相 比 ，GPU 通 党 对 线程 执行 的 资源 有 很 多 限 
T], 反映 了 它们 对 于 加 速 图 形 相关 的 SIMD 计 算 的 具体 设计 偏差 。 


对 于 我 的 MacBook Pro 设 备 上 的 Intel Iris GPU 设备 来 说 ，Local WorkSize 值 为 16 似 乎 更 适用 于 vectoradd () 核 光 数 。 一 旦 你 有 一 个 内 置 的 核 函 数 并 且 在 调用 
enqueueNDRangeKernel () 函数 之 前 ， 那 么 可 以 使 用 getrKetnelyVotkGtoupInfo () 查询 LocalWorkSize 的 首选 设置 ， 再 次 说 明 ， 它 说 明了 服从 系统 OpenCL 了 驱动 程序 实现 的 质 


量 ， 例 如 ， 看 看 下 面 的 代码 : 


> kinfo <- getKernelWorkGroupInfo(vecAddKernel,deviceID) 
> kinfo$CL KERNEL PREFERRED WORK GROUP SIZE MULTIPLE 
[LE] 16 


fevectorAdd () 的 第 二 行 ， 测 试 分 配给 此 调用 的 全 局 索引 ， 以 检查 它 是 否 超出 要 处 理 的 工作 项 目的 域 (该 限制 小 于 GlobalWorksSize， 由 numDataltems 人 参数 单独 指 
定 ) ， 如 果 是 ， 则 核 函 数 调 用 立即 退出 ， 因 为 没有 工作 要 做 。 更 重要 的 是 ， 我 们 不 能 党 试 访问 超过 向 量 a、b 和 < 结尾 的 内 存 ， 因 为 这 将 很 可 能 导致 核 国 数 龙 炸 ， 我 们 的 R 会 
AEREE. 

以 Cc 内 存 地 址 指针 警告 


C 对 代码 中 的 超出 存储 器 访问 错误 的 容 丸 程度 要 小 得 多 ， 这 是 因为 C 通 过 地 址 指针 计算 语法 访问 存储 器 的 固有 自由 度 更 容易 导致 错误 。 在 GPU 设 备 环境 下 运行 的 核 函 数 
中 的 这 些 错误 非常 有 可 能 导致 整个 系统 崩 江 ,而 不 发 出 警告 ， 这 其 至 可 能 发 生 在 可 能 认为 是 非常 稳定 的 操作 系统 ， 包 括 OS X! 


最 后 ， 在 vectorAdd () 的 第 三 行 ， 执行 单个 向 量 元 素 相 加 语句 : c=a+b, 
内 存 限 定 符 
4 个 不 同 限定 符 可 以 用 于 核 国 数 参 数 和 变量 声明 ， 如 下 所 示 : 


: global: 它 向 编译 器 表明 ， 相 关联 的 地 址 指针 指向 设备 的 全 局 区 域 中 内 存 ( 在 我 们 的 示例 中 是 *a、*b 和 *c 内 存 指 针 ) ， 因 此 ， 可 同时 访问 所 有 设备 的 计算 单元 。 在 某 
些 情况 下 ， 如 果 设 备 支持 ， 则 该 限定 符 还 可 以 指向 主机 的 全 局 区 域 中 的 内 存 。 


-_constant: 它 表 示 内 存 将 是 只 读 的 。 也 就 是 说 ， 使 用 CL_MEM_READ_ONLY 内 存 标志 (在 我 们 的 示例 中 没有 使 用 ) 创建 相应 的 OpenCL Buffer 对象。 这样 的 内 存 从 
全 局 内 存 中 分 配 ， 并 且 可 以 在 一 些 GPU 体 系 结构 上 赋予 性 能 优点 。 


-_ local: 它 表 示 引 用 的 内 存 保存 在 本 地 内 存 中 ， 意 味 着 它 只 能 被 特定 Wotk-Group (在 我 们 的 示例 中 没有 使 用 ) 中 的 执行 线程 访问 。 


' private: 这 表示 该 值 保存 在 私有 内 存 区 域 中 ， 该 区 域 只 能 由 使 用 此 核 函 数 执行 WorkItem 的 特定 CU 线程 访问 。 如 果 省 略 了 限定 符 (如 我 们 示例 中 的 


numDataltems) ， 那 么 这 也 等 同 于 _ptivate。 


全 局 内 存 是 访问 速度 最 慢 的 ， 本 地 内 存 的 速度 更 快 ， 而 私有 内 存 是 访问 速度 最 快 的 。 在 某 些 系 统 上 ， 私 有 内 和 存 的 访问 速度 比 全 局 内 存 快 100 多 倍 。 然 而 ， 需 要 权衡 的 
是 ,数据 仍然 必须 在 存储 器 子 系统 之 间 传 送 ， 并 且 随 着 访问 速度 的 提高 ， 需 要 很 少 的 存储 器 容量 。 它 需要 有 意义 的 微 心 片 空间 来 实现 快速 分 储 器 ， 且 生产 成 本 更 高 。 更 快 


的 内 存 应 该 是 为 那些 计算 和 重用 的 数据 值 所 保留 。 
了 解 NDRange 


对 于 给 定 的 工作 项 ， 调 用 enqueueNDRangeKernel () 将 在 一 个 跨 设备 的 计算 资源 中 调用 一 个 特定 的 核子 数 。OpenCL 人 多 许 我 们 指定 使 用 GlobalWorksize 人 参数 处 理 
工作 项 的 范围 有 多 大 。OpenCL 还 允许 我 们 最 多 在 三 个 维度 上 指定 工作 项 目 域 ,这 些 维度 用 来 反映 GPU 的 图 形 处 理 结果 。 因 此 ，ND 指 向 1D、2D 或 3D。OpenCL 进 一 步 将 
全 局 工作 项 空间 划分 为 单独 的 本 地 工作 组 ， 以 便 最 有 效 地 利用 设备 的 计算 资源 ， 并 人 允许 我 们 用 LocalWorkSize 参 数 可 选择 地 指定 本 地 工作 组 的 大 小 。 


号 一 为 什么 影响 本 地 工作 组 以 及 2D/3D? 


在 很 多 情况 下 ， 我 们 不 需要 关心 OpenCL 如 何在 较 小 的 本 地 化 工作 组 中 处 理 核 苑 数 的 执行 。 我 们 的 vectorAdd O 例子 也 是 一 个 在 1D 中 操作 的 简单 的 例子 。 然 而 ， 在 一 
个 工作 组 中 的 核 函 数 执行 可 以 共享 它们 自己 的 本 地 存储 器 资源 ， 跨 一 个 工作 组 ， 也 可 以 执行 本 地 和 全 局 存储 器 同步 点 (通过 调用 OpenCL 核 函数 屏障 的 所 有 核 函 数 调 
用 ，CLK_LOCAL MEM_FENCE1CLK_GLOBAL MEM. FENCE) ,使 得 更 有 效 地 实现 某 些 类 型 的 算法 。 它 也 可 以 更 方便 地 在 2D 工 作 项 空间 中 实现 矩阵 来 法 ， 而 不 是 执行 
将 这 样 的 索引 映射 到 1D 上 。 
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下 表 中 记录 的 OpenCL 使 用 内 核 ， 局 动 全 局 /本 地 工作 项 空间 的 所 有 方面 的 遂 数 的 范围 ， 在 这 样 的 空间 下 可 以 在 运行 时 调用 内 核 进行 查询 ， 因 此 对 于 核 立 数 可 以 进行 回 
应 动态 调整 自己 的 行为 : 


OpenCL 核 函 数 HH XA 
get work dim() 此 函数 返回 GlobalWorksize WJ% HB, HR In] 
其 返回 uint 量 中 的 元 孙 的 个 数 传递 给 enqueueNDRangeKernel () 
返回 值 是 C 类 型 uint 的 整数 并 在 1 一 3 的 范 | 作为 这 个 核 限 数 执行 的 GlobalWorkSize 参数 
Hs AJ 由 于 OpenCL 最 大 文 持 三 维 数组 ， 所 以 返回 的 值 将 是 
1, 23 


如 果 在 调用 enqueueNDRangeKernel () 中 的 Global- 
WorkSize 参数 值 是 标量 ， 那 么 该 图 数 将 返回 1 


OpenCL HAA 


get global id(uint dim) 

其 返回 Size t 

返回 值 是 C 类 型 size c HME O~get_ 
global sizeldin) 一 1 的 范围 向 


get global size(uint dim) 

其 返回 size t 

y 回 值 ECEN size t-GlobalWork3ize 
[dim] 的 整数 


get local id(uint dim) 

其 返回 size t 

返回 的 值 是 C 类 型 size t 上 的 整数 ， 将 在 0 一 
get local size(dim)--1 的 范围 内 


get local size(uint dim) 
18 [n] siz et 
返回 的 值 是 C 类 型 size t-Local WorkSize 


[dim] 的 整数 


get group id(uint dim) 

退回 size t 

返回 的 值 是 C 类 型 size t 的 整数 ， 将 在 
OQ~gat num groups (dim)-1 的 范围 内 


get num groups(uint dim) 

iB |] size t 

返回 的 值 是 C 类 型 size tt 的 整数 ， 并 且 大 于 
或 等 于 1 


£3 
Ha ih 


此 函数 可 以 单独 调用 ， 以 返回 全 局 工作 空间 域 的 每 个 
可 用 维度 的 核 函 数 执行 的 全 局 工作 项 索引 。 因 此 ， 每 个 
核 困 数 调用 将 具有 唯一 的 全 局 索引 坐标 

记 住 ， 这 是 一 个 C 函数 调用 它 只 能 访问 核 函 数 本 
F, 并且 dim 傅 数 的 有 效 值 是 基于 0~get work 
dim{) —1 而 不 是 及 的 I~get work dim() 的 索引 


该 郴 数 可 以 单独 调用 ， 对 于 这 个 内 核 局 用 运行 
enqueueNDRangeEernelií)l, 并 Hk [n] 由 Global- 
WorkSize 参数 定义 的 全 局 工作 空间 维度 中 的 全 局 工作 
项 的 数目 

OpenCL 最 多 支持 三 维 数组 ， 因 此 dim 参数 的 有 效 值 
是 0、1 或 2 


可 以 使 用 不 同 的 aim 值 (0.1 或 2) 单独 调用 此 函数 ， 
返回 对 于 每 个 可 用 的 本 地 工作 组 域 ， 它 的 维度 内 核 执行 
本 地 工作 项 指标 

每 个 核 调 用 仅 在 它们 的 特定 工作 组 中 有 唯一 的 本 地 索 
5 | 4t 


可 以 使 用 不 同 的 dim fÉ (0,1 2X 2) 单独 调用 此 因数 ， 
以 返回 本 地 工作 组 的 相应 维度 中 的 工作 项 的 总 数 

iR [8] 83 (ELE 5E nocalworksize (dim-*1) enqueue- 
NDRangeRernel {) SB BC BE, awe AEM Ee. 
则 将 由 OpenCL 框 染 目 动 选择 


可 以 使 用 不 同 的 aim 值 (0.1 或 2) 分 别 调用 此 函数 ， 
以 返回 整个 工作 组 集中 的 本 地 工作 组 的 相应 维度 索引 
[ 作 组 分 配 由 OpenCL 框架 本 身 决 定 


可 以 使 用 不 同 的 dim (É (0.125 2) 单独 调用 此 函数 ， 
以 返回 相应 维度 中 的 工作 组 的 总 数 

本 地 工作 组 的 数量 由 OpenCL 框架 本 身 确 定 ，, 但 不 超 
过 全 局 工作 项 的 数量 


到 现在 为 止 ， 你 应 该 对 OpenCL 的 基本 概念 、ROpenCl 编 程 模型 、 如 何 用 CC 编写 核 溺 数 ， 以 及 OpenCL 框 架 如 何在 设备 上 执行 核 浮 数 有 一 个 深刻 的 理解 。 在 本 章 的 剩 
余部 分 ， 我 们 将 探讨 一 个 更 复杂 的 ROpenCL 示 例 ， 它 将 演示 如 何 处 理 不 适合 核心 GPU 内 存 的 数据 集 ， 以 及 如 何 进 一 步 利 用 OpenCL 设 备 对 于 SIMD 向 量 指令 的 内 部 支持 加 
快 核 函数 运行 。 


5.2.2 ”距离 炬 阵 示 例 


在 R 语 言 中 ， 我 们 可 以 计算 在 N 个 变量 的 两 个 观测 向 量 A 与 B 之 间 的 简单 的 欧 氏 距离 ， 两 个 向 量 A 与 B 的 计算 适用 于 以 下 公式 : 


Euclidean distnce = 


Yi DDL 


SHER BOA ARAKA] REE, fssFddist () 。 


计算 一 组 观测 值 的 距离 矩阵 具有 时 间 复杂 度 O (n?) 的 计算 开销 。 除 此 之 外 ， 必 须 为 观测 值 和 变量 的 每 个 组 合计 算 距离 值 。 


在 接 下 来 的 ROpenCL 示 例 中 ， 我 们 将 看 看 如 何 使 用 GPU 对 最 大 性 能 的 距离 矩阵 计算 进行 编码 。 首 先 ， 我 们 需要 相当 多 的 有 趣 数 据 。 


1. 复 合 剥 夺 指数 


在 英国 ,一 套 标准 的 政府 社会 人 口 由 符合 剥夺 指数 (IMD) 计算 。 这 个 指数 可 以 决定 在 1000 到 2000 人 之 间 的 地 理 行政 区 域 的 水 平 ， 并 且 利 用 一 系列 措施 ， 包 括 经 济 
的 、 犯 罪 的 以 及 健康 相关 的 ， 对 区 域 由 最 富有 到 最 贫穷 进行 排名 。 总 共有 大 约 32000 个 这 样 的 行政 区 域 ， 称 为 低 超 输出 区 (Lower Super Output Area, LSOA) , #25 
了 整个 英格兰 。 用 作 IMD 基 础 的 这 个 数据 集 可 从 http://data.gov.uk/dataset/index-of-multiple-deprivation 上 的 Open Data from Data.Gov.UK 获 得 。 我 们 将 使 用 这 个 
数据 集 的 简化 变 体 (其 本 身 可 以 从 相关 联 的 图 书 网 站 下 载 ) 生成 所 有 LSOA 的 距离 矩阵 作为 聚 类 分 析 的 输入 ， 这 将 使 得 我 们 能 够 将 英格兰 的 区 域 分 成 类 似 的 社会 人 口 市 。 


让 我 们 快速 浏览 该 数据 (注意 ， 为 简洁 起 见 ， 输 出 被 修整 过 ) : 
> filepath <- "./chapter5 IMD data.csv" 
> data <- read.table(file = filepath, header=TRUE, sep=",", row.names=1) 


> head (data) 
INCOME.SCORE EMPLOYMENT. SCORE 


E01000001 0.01 0.01 
E01000002 0.01 0.01 
201000003 0.07 0.05 
E01000004 0.04 0.04 
E01000005 0.16 0.07 
E01000006 0.12 0.06 


> tail (data) 


Skills.Sub.domain.Score IDACI . score IDAOPI.score 


E01032477 10.96 0.07 0.06 
E01032478 48.72 0.20 0.31 
E01032475 16.32 0.09 0.18 
E01032480 14.63 0.11 0.08 
E01032481 23.42 0.19 0.25 
E01032482 2.85 0.03 0.11 


> summary (data) 


INCOME . SCORE EMPLOYMENT . SCORE 

Min. 70.0000 Min. 70.0000 

Max. :0.7700 Max. :0.7500 
HEALTH.DEPRIVATION.AND.DISABILITY.SCORE 
Min. :-3.100000 

Max. : 3.790000 


EDUCATION.SKILLS.AND.TRAINING.SCORE 


Min. : 0.01 

Max. :99.34 
BARRIERS.TO.HOUSING.AND.SERVICES.SCORE 

Min. : 0.34 

Max. :70.14 

CRIME.AND.DISORDER.SCORE LIVING. ENVIRONMENT. SCORE 
Min. :-3.280000 Min. : 0.06 

Max. : 3.810000 Max. :92..59 
Indoors.S8ub.domain.Score Outdoors.Sub.domain.Score 
Min. : 0.00 Min. : 0.00 

Max. :100.00 Max. :100.00 


Geographical.Barrlers.5ub.domain.sScore 

Min. : 0.00 

Max. :100.00 

Wider .Barriers.Sub.domain.Score 

Min. : 0.00 

Max. :100.00 

Chlldren.Young.People.Sub.domain.Score Skills.Sub.domain.Score 
Min. : 0.00 Min. : 0.00 

Max. 7100.00 Max. 7100.00 


IDACI.score IDAOPI.score 
Min. 70.0000 Min. 70.000 
Max. :0.9900 Max. :0.980 


> lengthí(data) # number of variables 
[1] 15 
> lengthí(row.names(data)) # number of observations 


[1] 32482 


我 们 可 以 注意 到 ， 在 IM D 数 据 集中 有 32482 个 观察 值 和 15 个 变量 。 每 个 观察 值 都 用 在 E01000001 到 E01032482 范 围 内 它 的 LSOA 标 识 符 唯一 地 标记 。 这 些 变量 涵盖 了 
每 个 LSOA 所 测量 的 收入 、 就 业 、 健 康 、 残 疾 、 教 育 等 。 (你 可 以 在 http://data.gov.uk/dataset/index-ofmultiple-deprivation 中 找到 关于 这 些 度量 的 更 多 信息 。) 摘要 
显示 ， 尽 管 每 个 变量 数据 值 的 数值 范围 不 同 ， 但 都 是 在 小 于 100 的 幅度 内 。 虽 然 我 们 可 以 将 所 有 的 变量 调整 为 相同 的 数值 域 范围 内 ， 但 是 为 了 我 们 并 行 的 目的 ， 我 们 将 按 
原样 使 用 这 些 数据 . 


当 我 们 使 用 相当 大 的 数据 时 ， 我 们 需要 确保 GPU 上 有 足够 的 内 存 容量 。 因 此 ， 我 们 需要 了 解 观测 变量 矩阵 的 内 人 存 要 求 作 为 输入 ， 计 算 距 离 测量 作为 输出 。 
在 主机 上 ， 观 测 数据 需要 每 个 变量 8 个 字 节 ， 因 为 每 个 值 将 存储 为 64 位 双 精 度 浮 点 。 

观测 数据 (主机 ) 是 8x15x32482 = 3.7MB, 

为 了 能 够 在 lris GPU 上 保存 这 些 观测 数据 ， 需 要 一 半 的 内 存 ， 因 为 设备 只 支持 32 位 单 精 度 浮 点 ， 即 1.85MB。 


然而 ， 距 离 度量 是 一 个 不 同 的 故事 。 我 们 需要 计算 (n2/2) -n 的 不 同 结果 ， 我 们 只 需要 计算 一 个 三 角 和 矩阵 作为 观测 值 之 间 的 距离 硫 量 ， 两 个 观测 值 乙 间 的 距离 度量 是 
可 交换 的 ， 而 且 我 们 也 可 以 排除 一 个 观测 值 与 其 自身 的 距离 度量 。 


距离 度量 (主机 ) 是 8x ( (324822/2-32482) ) =4GB。 

为 了 将 所 有 这 些 数据 保存 在 Iris GPU 上 作为 32 位 单 精 度 浮 点 ， 将 需要 2GB 的 内 存 ， 这 里 我 们 有 一 个 小 问题 : 我 们 的 Iris GPU 的 全 局 可 用 内 人 存 最 大 只 有 1.5GB。 为 了 解决 
这 个 问题 和 教学 目的 ， 我 们 将 采用 一 种 核 外 处 理 方法 与 使 用 GPU 计算 距离 度量 的 方法 相 结合 。 
2.GPU 核 外 存储 器 处 理 


GPU 具有 大 量 的 存储 器 空间 ， 足 以 容纳 观测 数据 (输入 ) 的 完整 副本 ， 但 不 足以 容纳 计算 的 计算 度量 (输出 ) 的 完整 副本 。 在 下 面 代 码 块 中 所 采用 的 方法 是 将 结果 的 
计算 分 裂 为 观测 值 的 全 局 工作 空间 的 子 集 中 ， 我 们 称 为 工作 块 ， 其 中 每 个 执行 的 块 都 需要 单独 排队 的 核 消 数 调用 。 随 着 要 计算 的 距离 度量 的 数量 线性 减少 ， 后 续 工 作 块 将 
花费 更 少 的 时 间 来 执行 。 对 于 数据 集中 的 第 一 个 观测 值 ， 存 在 要 计算 N-1 个 距离 度量 ， 这 些 距离 度量 对 于 数据 集中 的 最 后 一 个 观测 值 单调 减少 到 0。 


配置 


我 们 获得 GPU DevicelD 并 创建 上 下 文 的 初始 化 代码 与 之 前 在 向 量 相 加 示例 中 使 用 的 初始 化 代码 相同 ， 因 此 这 里 省 略 它 们 。 下 面 的 第 一 个 代码 块 设置 工作 空间 域 并 创 
建 输入 和 输出 组 ;中 区 以 及 距离 度量 数组 这 引 。 我 们 可 以 创建 后 者 以 便 节 省 核 函数 内 的 额外 代码 行 。GPU 核 资源 有 限 ， 所 以 如 果 我 们 能 够 避免 这 个 问题， 我 们 不 要 在 核 浮 数 
中 包含 这 样 的 额外 开销 。 当 然 ， 在 按 需 计算 值 与 为 重用 缓存 值 之 间 忆 是 可 以 兼顾 各 方 。 在 这 种 特殊 情况 下 ， 它 是 一 个 边际 调用 : 


distOffset (i,N) 

Function to map an observation sequence index to its resultant 
distance matrix offset. Each observation i will have N-i 
entries, one for each of the remaining observations for which a 
distance measure must be calculated. The distance matrix is a 


++ dt dt dto dt 


triangular array realised as a compact 1D vector. 


distOffset <- function(obsIndex,numObs) { 
offset <- numObs*(obsIndex-1) - obsIndex* (obsIndex-1) /2 
return (as.integer (offset) ) 


maxWorkSize <- 32482 # total number of observations 

LocalWorkSize <- 16 

GlobalWorkSize <- 32768 # closest multiple of LocalWorkSize 
blockWorkSize <- 2048 # num obs to process per kernel invocation 

# distSizeBlock is max num results per invocation (=first block) 
distSizeBlock <- distOffset (blockWorkSize+1,maxWorkSize) 

# distSizeMax is the maximum extent of the distance results vector 


distSizeMax <- distOffset (maxWorkSize,maxWorkSize) 


# Precalculate distance array indices for the kernel function 
outIndexes <- integer (maxWorkSize+1) 

for (i in 1:maxWorkSize) outIndexes[i] = distOffset (1,maxWorkSize) 
outIndexes [maxWorkSize+1] = outIndexes [maxWorkSize] 


# Create a 1D vector of observations X variables from the data 
dvec <- as.vector(t (data) ) 


# Create the input, distance array offsets and output buffers 
# Note that we add an extra element (uninitialised) to dvec to 
# support our later use of SIMD vector processing. 
inBuffer <- createBuffer(context,"CL MEM READ ONLY", 
length (dvec) +1, dvec) 
indexBuffer <- createBuffer(context,"CL MEM READ ONLY", 
length (outIndexes) , out Indexes) 

outBuffer <- createBufferFloatVector(context,"CL MEM WRITE ONLY", 

distSizeBlock) 


核 国 数 dist1 


这 里 给 出 了 计算 距离 度量 的 核 函 数 。 对 于 原始 速度 ， 该 实现 使 用 C 语 言 的 指针 运算 对 输入 数据 进行 处 理 ， 用 sptr 标 记 对 于 这 个 核 调用 的 起 始 观测 值 来 计算 aptr 的 距离 度 
量 ，aptr 用 于 反复 遍历 起 始 观测 值 的 变量 。bptr 遍 历 所 有 剩余 的 观测 值 及 其 变量 。optr 遍 历 由 核 调用 处 理 的 结果 块 : 


| kernel void dist1(/*1*/ global const float *input, 
/*2*/ global const int *indexes, /*3*/ global float *output, 
/*4*/int numObs, /*5*/int numVars, 
/*e*/int startObs, /*7*/int stopObs) 


// This kernel invocation is assigned the work item offset by 

// the start of the observation window for this block 

int startIndex = get global id(0) + startObs; 

if (startIndex »- stopObs) return; 

| global float *sptr = &input[startIndex * numVars]; // startObs 
_ global float *aptr; 

_ global float *bptr = sptr + numVars; // bptr is startObs+1 

int distIndex = indexes[startIndex] - indexes[startObs]; 

_ global float *optr = &output[distIndex]; 


int obsIndex; int i; 

float sum; float diff; 

// Loop iterates through ALL observations that follow startObs 

for (obsIndex = startIndex+1; obsIndex < numObs; obsIndex++, 
optr++) // on each iter optr advances to next result slot 


aptr = sptr; // aptr is reset to first variable in startObs 
sum. = D.D: 
// Loop through all variables for this pairing of observations 
for (i = 0; i < numVars; i++, aptr++, bptr++) 
{ 

diff = *aptr - *bptr; 

sum += diff * diff; 
} 


*optr = sqrt(sum); // store the calculated result 


工作 块 控制 循环 


以 下 代码 的 最 后 部 分 提供 了 控制 循环 ， 用 于 处 理 阻 塞 子 集中 数据 的 观测 值 ， 如 配置 所 示 ， 人 在 每 个 核 调用 上 处 理 一 个 2048 个 观测 值 的 滑动 窗口 ， 并 在 每 次 友 代 时 ， 
GPU 复制 结果 块 用 于 结果 向 量 中 的 累积 : 


kernelCodel <- ' kernel void disti(...' 
kernel <- buildKernel (context,kernelCodel,'disti', 
inBuffer,indexBuffer,outBuffer, 
as.integer (maxWorkSize) ,as.integer(15), 
as.integer (0) ,as.integer (blockWorkSize) ) 
enqueueWriteBuffer (queue, inBuffer, length(dvec) , dvec) 
enqueueWriteBuffer (queue, indexBuffer, 
length (out Indexes) , outIndexes) 
result <- numeric (distSizeMax) 


numBlocks <- GlobalWorkSize / blockWorkSize 
remainingWork = maxWorkSize 

obsIndex <- 1 

for (b in 1:numBlocks) 


{ 


# On last block iteration adjust workSize to what remains 
workSize <- blockWorkSize 


if (remainingWork < workSize) workSize <- remainingWork 


# We use ROpenCL's assignKernelArg() to modify the startObs 
# and stopObs kernel arguments to move the observations 

# window on to the next block of work 

kernelStartObs <- obsIndex-1 # R:1..n maps to C:0..n-1 
kernelStopObs <- kernelStartObs + workSize 

assignKernelArg (kernel,6,as.integer (kernelStartObs) ) 
assignKernelArg (kernel,7,as.integer (kernelStopObs) ) 


# block/GlobalWorkSize must be a multiple of LocalWorkSize 


enqueueNDRangeKernel (queue, kernel, blockWorkSize, LocalWorkSize) 


# Copy the block of results computed into the host's distance 
# measures array +offset for the observations window processed 
distOffset <- outIndexes [obsIndex] 

distSize <- outIndexes [obsIndex + workSize] - distOffset 
enqueueReadBuf fer (queue, outBuffer,distSize, result,distOffset) 


# Update observations window and remainingWork for next iter 
obsIndex <- obsIndex + workSize 
remainingWork <- remainingWork - workSize 


在 前 面 的 代码 中 ， 重 要 的 是 突出 R asinteger () AFRESH EA KSEE, ZAZA Cint., RADARS WS Bae ETRAS — SEER 
的 核 浮 数 ， 使 得 R 在 后 台 静 静 地 将 它 转换 为 双 精 度 浮 点 数 ， 并 带 来 不 可 预测 和 难以 调试 的 副作用 。 还 有 一 点 值得 注意 ， 在 为 每 个 块 迭 代 调 用 enqueueND-RangeKernel 之 
前 ， 使 用 ROpenCL 包 的 assignKernelArg () 卫 数 来 更 改编 译 的 核 的 startObs 和 stopObs 人 参数 的 值 。 


在 我 的 MacBook Pro 设 备 上 运行 这 个 GPU 增强 dist1 () 函数 大 约 需要 7 秒 。 相 比 之 下 ， 在 我 的 笔记 本 电脑 上 运行 R 的 内 置 dist () 函数 只 使 用 CPU 大 约 需 要 25 秒 来 处 
理 相 同 的 观测 数据 集 。 总 之 ， 我 们 使 用 GPU 提升 了 性 能 ， 但 还 没有 达到 我 们 所 期 望 的 那样 一 令 人 惊叹 的 结果 。 部 分 问题 是 主机 和 GPU 之 间 所 需 数 据 的 额外 复制 和 传输 ， 但 
是 GPU 编程 的 一 个 方面 我 们 还 没有 利用 ， 而 这 将 有 助 于 加 速 核 函 数 ， 即 SIMD 向 量 处 理 。 


核 国 数 dist2 


下 面 给 出 了 GPU dist 核 函数 的 第 二 个 变 体 ， 它 被 重 写 以 使 用 OpenCL SIMD 向 量 运算 : 


__kernel void dist2(/*1*/ global const float *input, 
/*2*/ global const int *indexes, /*3*/ global float *output, 
/*4*/int numObs, /*5*/int numVars, 

/*6*/int startObs, /*7*/int stopObs) 


int startIndex = get global id(0) + startObs; 
if (startIndex >= stopObs) return; 
| global float *sptr = &input[startIndex * numVars] ; 


_ global float *bptr = sptr + numVars; 
int distIndex = indexes[startIndex] - indexes[startObs]; 
_ global float *optr = &output [distIndex] ; 
int obsIndex; float sum; 
floatli6 a, b, d, d2; // Allocate private SIMD vector registers 
a = vloadl6(0,sptr); // Load start obs into SIMD Vector16 
for (obsIndex = startIndex+1; obsIndex < numObs; 
obsIndex++, optr++, bptr += numVars) 


{ 
b = vloadi6(0,bptr); // Load next obs into SIMD Vector16 
d-a-b; // fast vector element wise subtraction 
d2 = d * d; // fast vector element wise multiplication 
// Use vector element accessors to sum first 15 elements only 
sum = d2.s0 + d2.sl + d2.s2 + d2.s3 + d2.s4 + 
d2.s5 + d2.s6 + d2.s7 + d2.s8 + d2.s9 + 
d2.SA + d2.sB + d2.sC + d2.sD + d2.SE; 
*optr = sqrt (sum); 
} 


为 了 支持 SI1MD 向 量 处 理 ，OpenCl 编 译 器 接受 更 广泛 的 C 语 法 ， 如 前 面 代 码 突 出 显示 的 。 我 认为 值得 注意 的 是 ， 读 取 结 果 C 代 码 是 多 么 简单 和 容易 (倾向 于 R) ， 我 们 
已 经 能 够 完全 去 除 内 循环 并 展开 求 和 。 

OpenCL 可 以 支持 2 个 、3 个 、4 个 、8 个 和 最 多 16 个 元 素 的 单个 向 量 ， 这 些 元 素 通 过 指定 C 类 型 (例如 float) 用 数值 向 量 宽度 来 简单 定义 。float4 类 型 定义 了 4 个 浮 点 数 
的 向 量 。OpenCL 编 译 器 将 把 应 用 于 向 量 的 简单 数学 表达 式 转 换 为 可 在 单个 处 理 器 周期 内 对 多 个 值 进行 操作 的 SIMD 指 令 ， 这 取决 于 底层 计算 单元 的 性 能 。 

OpenCL 提 供 特殊 函数 从 全 局 或 本 地 存储 器 中 加 载 SIMD 向 量 和 存储 SIMD 向 量 。 我 们 的 dist2 核 函数 使 用 DpenCL 的 vload () 函数 ， 从 全 局 内 存 中 将 一 个 完整 的 观测 
B (16 个 浮 点 数据 ) 传 入 一 个 计算 单元 的 私有 向 量 寄存 器 。 向 量 中 有 差 的 前 15 个 元 素 的 最 终 求 和 说 明了 使 用 OpenCL 向 量 元 素 访问 器 ".hexadecimal digit" 语 法 。 我 们 知 
道 ， 我 们 向 输入 缓冲 区 添加 了 一 个 额外 的 未 使 用 的 元 素 ， 这 人 允许 我 们 安全 地 执行 16 个 元 素 向 量 操 作 ， 而 不 会 在 最 后 一 个 观测 值 超过 内 存 边 界 。 


设备 执行 SIMD 向 量 指令 的 能 力 可 以 通过 getDevicelnfo () 查询 。 就 我 的 Mac-Book Pro 设 备 中 的 Iris GPU 而 言 ， 将 返回 以 下 内 容 : 


> dinfo$CL DEVICE PREFERRED VECTOR WIDTH FLOAT 
[1] à 

» dinfo$CL DEVICE NATIVE VECTOR WIDTH FLOAT 
[1] à 


从 表面 上 看 ， 宽 度 为 1 的 支持 向 量 意味 着 SIMD 向 量 处 理 将 不 会 给 我 们 带 来 关于 这 个 设备 的 任何 好 处 。 然 而 ， 实 际 上 ， 使 用 dist2 核 运行 核 外 GPU 处 理 代 码 达 到 了 2V3 的 
性 能 ， 所 以 ， 至 少 ， 由 于 编译 器 在 优化 声明 的 向 量 代码 方面 更 加 智能 ， 我 们 现在 具有 8x 性 能 ， 它 优 于 人 在 主机 上 运行 的 R 的 标准 核心 qist () 实现 。 


作为 该 主题 的 最 后 一 个 词 ，OpenCL 的 许多 整洁 的 特性 之 一 是 它 对 异 构 计算 的 支持 。 我 们 可 以 简单 地 将 我 们 定位 的 设备 更 改 为 主机 CPU 的 设备 ， 并 比较 我 们 优化 的 
dist2 () 示例 在 GPU 和 CPU 之 间 的 运行 时 。 在 我 的 MacBook Pro 4xCU 主 机 CPU 上 ， 我 可 以 实现 大 约 5 秒 的 运行 时 。 因 此 ， 可 以 说 ， 不 只 是 一 个 超级 计算 机 潜伏 在 我 的 笔 
记 本 电脑 中 ， 而 是 两 个 : GPU 和 CPUI! 


5.3 Rae 


/UN 一 器 


在 本 章 中 ， 我 们 详细 探讨 了 如 何 通过 使 用 ROpenCl 包 利用 笔记 本 电脑 中 GPU 的 性 能 来 代表 R 程 序 执行 计算 。 同 时 ， 你 还 学 习 了 一 些 在 C 编 程 语 言 中 编写 高 效 核 函 数 代 
码 ， 以 及 循环 展开 和 小 心 使 用 高 速 内 存 的 知识 。 


我 们 注意 到 ， 虽 然 OpenCL 的 目标 是 异 构 可 移植 性 ， 其 中 相同 的 代码 可 以 运行 在 各 种 设备 (包括 CPU 本 身 ) 上 ， 但 现实 情况 是 ， 特 别 是 GPU ， 代 码 优化 的 余地 是 针对 
底层 设备 硬件 的 特性 量 身 定制 的 ， 以 提升 最 大 可 能 的 性 能 。 获 得 核 浮 数 的 最 佳 性 能 是 平衡 内 存 访问 和 利用 向 量 处 理 ， 最 终 性 能 到 底 怎 么 样 需要 你 自己 实验 。 


在 下 一 章 中 ， 我 们 将 从 本 书 中 探讨 的 成 功 并 行 编程 的 各 种 方法 中 汲取 基本 教训 。 我 们 还 将 采取 更 科学 的 方法 来 评估 和 实现 最 大 并 行 效 率 。 我 们 将 通过 宽 探 未 来 的 技术 
发 展 来 结束 本 书 ， 这 些 技术 的 上 友 展 将 大 大 增加 我 们 可 以 利用 的 计算 量 ， 包 括 那 些 轻易 束 可 以 达到 的 。 


第 6 章 ” 并 行程 序 设 计 的 艺术 


本 章 的 标题 有 一 些 夸张 和 特别 ,将 “艺术 ”一 词 添 加 到 “程序 设计 ”这 样 的 工程 学 科 中 可 能 看 起 来 很 奇怪 。 良 好 的 程序 设计 体现 在 良好 的 设计 中 ， 而 良好 的 设计 通常 
表现 出 一 些 元 素 对 称 性 的 美 ， 即 在 抽象 的 世界 中 ， 恢 复 国 有 的 、 简 单 的 识别 性 一 我 的 意图 是 捕获 哈 利 波 特 “ 黑 魔法 ”的 概念 : 那些 危险 的 地 方 。 本 章 的 标题 也 可 以 是 “这 
a, SET" 


在 并 行程 序 设计 世界 中 有 很 多 因为 粗心 大 意 而 可 能 遇 到 的 陷阱 ， 在 本 章 我 们 将 提醒 你 这 些 内 容 : 
EA 消息 如 何 传递 ， 特 别 是 可 能 导致 不 可 预知 结果 的 程序 行为 。 

数值 不 稳定 性 : 在 并 行 计 算 时 会 产生 结果 的 变动 。 

- 随机 数 : 在 并 行 运行 时 确保 每 个 数据 处 理 器 都 有 自己 唯一 的 随机 序列 。 


在 本 章 中 ， 我 们 也 将 讨论 加 速 比 (SpeedUp) 的 概念 、 阿 姆 达尔 定律 (Amdahl slaw) 的 限制 ， 以 及 如 何在 不 同情 况 下 实现 并 行 效率 ,包括 任务 场 、 网 格 和 Map- 
Reduce 环 境 。 我 们 将 通过 提取 你 在 之 前 学 习 课程 中 的 精华 ， 希 望 可 以 让 你 成 为 真正 的 并 行程 序 设计 艺术 的 实践 者 。 最 后 ， 我 们 将 看 看 “ 德 洛 丽 丝 的 水 晶 球 ”， 大 规模 并 行 
计算 在 未 来 对 R 程 序 设计 特别 是 大 数据 将 产生 重大 影响 。 


a 


6.1 理解 并 行 效率 


让 我 们 先 回 到 一 开始 ， 想 想 为 什么 我 们 会 首选 写 一 个 并 行程 序 。 
简单 的 答案 当然 是 我 们 要 加 快 算法 ， 并 希望 计算 的 速度 远 远 快 于 我 们 简单 地 利用 单线 程 程序 进行 串 行 计算 。 


在 如 今 的 大 数据 时 代 ， 由 于 单机 体系 结构 难以 执行 一 个 具有 巨大 数据 规模 的 复杂 算法 ， 所 以 当 问 题 是 可 计算 的 时 候 ， 我 们 将 考虑 使 用 并 行程 序 设 计 去 解决 这 样 的 问 
题 。 因 此 ， 我 们 必须 使 用 成 干 上 万 的 计算 核心 、 太 字 节 内 存 、 扣 字 节 的 存储 器 ， 以 及 能 够 应 对 在 约 数 百 万 小 时 计算 周期 中 各 个 组 件 不 可 避免 的 运行 时 故障 的 支持 管理 基础 
设施 。 

利用 并 行 化 的 另 一 种 情况 ， 最 简单 的 前 述 是 提高 整体 吞吐 量 。 可 能 你 正在 运行 一 个 模拟 程序 并 估算 一 个 输入 数据 的 宽 谱 方差 。 在 这 种 情况 下 ， 在 一 个 大 规模 的 n 台 处 
理 器 集群 中 ， 可 以 同时 执行 n 个 不 同 的 计算 模拟 程序 。 每 个 模拟 程序 是 彼此 完全 独立 的 ， 所 以 对 于 每 个 模拟 程序 运行 没有 额外 的 管理 和 共享 状态 的 开销 。 这 种 形式 的 并 行 
问题 通常 指 的 是 朴素 并 行 (na 网 e parallelism) ， 其 中 工作 量 简单 地 分 配给 相互 乙 间 完全 独立 的 处 理 器 代理 。 


6.1.1 IMEE 
比较 等 效 的 并 行程 序 与 串 行 程序 的 执行 效率 是 很 重要 的 。 最 简单 的 评价 指标 是 加 速 比 ， 即 串 行程 序 执行 时 间 与 并 行程 序 执行 时 间 的 比值 : 


Leny 
SpeedUp— ——— 


parallel 


当 我 们 增加 并 行程 序 的 数量 时 ， 并 行程 序 执行 的 时 | 间 Tparalle| 将 减少 ， 加 速 比 将 提高 。 假 设 最 优 的 捉 行 实 现 等 效 于 在 单个 处 理 器 上 执行 的 并 行 实现 ， 在 其 缩放 〈 即 展现 


j ost 3 


Y Me. a$ /— > E 
7 x 并 (E R 。 I parati W— N 


通常 ， 我 们 从 一 个 捉 行 计算 和 查找 的 基础 上 开始 通过 逐步 并 行 化 来 提高 其 性 能 。 目 前 为 止 这 是 一 个 粗略 的 简化 ， 对 于 特定 输入 的 给 定 算法 的 执行 ， 有 一 个 非 并 行 组件 
和 一 个 并 行 组 件 ， 如 下 所 示 : 


A 时 | : Tod — Tong arallel FT parallel_N 


算法 的 整体 执行 时 间 是 非 并 行 组 件 的 执行 时 间 加 上 并 行 组 件 的 执行 时 间 。 我 们 可 以 通过 添加 更 多 的 并 行 处 理 单元 来 减少 并 行 组 件 所 花费 的 时 间 ， 也 就 是 说 ,我 们 可 以 
添加 尽 可 能 多 的 并 行 处 理 单 元 ， 而 整体 的 执行 时 间 将 以 非 并 行 组 件 执行 时 间 为 主 。 


任何 可 测量 的 非 并 行 组 件 的 执行 时 间 从 根本 上 限制 了 算法 的 整体 可 扩展 性 。 举 个 例子 ， 假 设 当 两 个 组 件 在 单 处 理 器 上 运行 时 ， 非 并 行 组件 在 并 行 组 件 整体 执行 时 间 的 
10% 后 开始 运行 。 假 设 并 行程 序 部 分 具有 完美 执行 情况 ， 然 后 使 用 10 个 中 央 处 理 机 重新 执行 非 并 行 组 件 将 立即 使 非 并 行 组 件 的 执行 时 间 下 降 到 ?39%6。 增 加 并 行 组 件 到 100 


个 处 理 器 时 速度 可 能 增加 10 倍 。 然 而 ， 由 于 非 并 行 组 件 执行 时 间 相 对 占 优 势 ， 所 以 即使 有 1000 个 或 者 更 多 的 处 理 器 ， 整 体 的 执行 速度 只 能 提高 两 倍 ， 无 法 展现 出 任何 进 一 
步 有 意义 的 改进 。 


6.1.2” 阿 姆 达尔 定律 


我 们 可 以 使 用 阿 姆 达尔 定律 (Amdahl’ slaw) 重 写 前 面 的 加 速 比 公式 ， 它 表明 N 个 处 理 器 实现 的 最 大 加 速 比 ， 其 中 算法 的 可 并 行 比例 指定 为 P (0~ 1) 。 
阿 姆 达 尔 定律 表示 为 


SpeedUp(N) = 

-AT 
N 

例如 ，90% 的 运行 时 可 以 并 行 化 ， 这 将 是 : 

SpeedUp (10) —1/ (1 一 0.9) +0.9/10=5.26 

SpeedUp (100) =9.17 

SpeedUp (1000) =1/ (1—0.9) +0.9/1000=9.91 

SpeedUp (10000) =9.99 


下 图 摘 述 了 一 个 加 速 比 图 ， 其 中 算法 的 并 行 化 为 90%。 
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— 加 速 比 


10 个 100 个 1000 个 10 000 个 
图 6-1 算法 组 件 并 行为 900% 的 加 速 比 图 
正如 我 们 可 以 看 到 的 ， 尽 管 及 用 了 成 干 上 万 的 处 理 器 ， 但 最 大 可 实现 的 加 速 比 只 能 达到 10。 
Se ite 


有 趣 的 是 ， 重 写 阿 姆 达尔 定律 可 以 用 来 估计 基于 单个 并 行 运行 时 度量 的 并 行 化 算法 的 比例 P， 如 下 所 示 : 


Ol o, 
SpeedUp 

Pimateá = ov 2— 
N 


如 果 把 上 式 应 用 到 例子 中 ， 我 们 有 10 个 处 理 器 和 一 个 5.26 的 加 速 比 ， 则 估计 P 为 0.898~0.9。 因 此 ， 根 据 单个 并 行 运行 时 与 囊 行 运行 时 比较 ， 我 们 可 以 确定 最 大 可 扩展 
性 ， 而 不 需要 进一步 运行 (潜在 的 高 成 本 ) 更 多 的 并 行 性 来 评估 执行 的 效率 。 


6.51.3 ”并 行 或 者 不 并 行 
重要 的 是 认识 到 为 了 达到 高 扩展 性 ， 我 们 需要 尽量 减少 串 行 组 件 与 并 行 算法 相 结合 。 阿 姆 达尔 定律 表明 即使 只 有 5% 的 程序 是 非 并 行 的 ， 可 以 实现 的 最 大 加 速 比 也 只 有 
20。 如 果 我 们 只 能 在 并 行 算法 实现 中 有 效 地 利用 其 中 的 一 小 部 分 ， 那 么 束 不 值得 承担 维护 数 百 台 处 理 器 的 开销 。 


因此 ， 算 法 开销 是 一 个 重要 的 考虑 因素 。 更 复杂 的 并 行 化 意味 着 高 的 管理 开销 水 平 ， 无 论 是 为 每 个 单独 的 计算 建立 独立 的 输入 配置 ， 收 集 整 合生 成 的 结果 还 是 根据 其 
计算 本 身 ， 都 必须 保持 独立 处 理 元 件 之 间 的 中 间 共 享 状 态 。 这 些 开 销 成 本 也 可 以 组 合用 于 特定 算法 实现 。 


AmdahI 的 定律 与 固定 的 输入 规范 相关 联 ， 并 且 基 于 这 样 的 前 提 : 并 行 组 件 除 了 同时 执行 的 N 个 线程 之 外 ， 它 并 没有 其 他 优势 来 帮助 给 定 的 具有 非 并 行 开销 的 算法 。 但 
在 实践 中 ， 有 许多 应 用 程序 不 是 这 样 的 。 


非 并 行 的 开销 可 能 不 变 或 由 于 正在 解决 问题 的 大 小 略 有 增加 。 某 些 并 行 算法 可 以 实现 更 高 水 平 的 数据 详细 分 析 或 在 同一 个 时 间 窗 口上 运行 更 大 的 数据 集 。 所 采用 的 并 
行 系统 的 规模 可 能 不 仪 是 束 计 算 而 言 ， 重 要 的 是 ， 在 核心 内 存 和 系统 资源 的 其 他 方面 ， 如 通信 市 宽 或 本 地 磁盘 存储 器 ， 与 等 效 的 单 处 理 器 顺序 执行 相 比 ， 能 够 大 规模 地 提 
高 对 大 型 数据 集 的 存储 读 取 能 力 。 这 可 以 导致 超 线性 加 速 比 ， 其 中 N 路 并 行 实现 性 能 比 等 效 的 串 行 实现 性 能 高 N 倍 以 上 。 


并 行 性 可 以 非常 有 效 地 应 用 于 那 种 难以 解决 的 并 行 问题 。 一 般 来 说 ， 大 多 数 类 型 的 计算 问题 可 以 从 并 行 性 中 获得 一 定 程度 的 好 处 。 有 些 应 用 程序 可 能 是 唯一 时 间 敏 感 
的 。 例 如 ， 考 虑 分 析 危 重病 人 的 生物 影像 。 绝 对 效率 可 以 让 位 于 任何 水 平 可 获得 的 加 速 性 能 。 


查 普 尔 定律 


但 是 ， 还 要 注意 一 句 话 : 必须 始终 适当 考虑 构建 算法 的 并 行 实现 所 需 的 时 间 和 精力 。 这 里 的 查 普尔 定律 (Chapple' slaw) 强调 的 是 如 果 要 执行 新 的 并 行 代 码 ， 则 需 


要 努力 实现 并 行 代码 足够 次 数 来 抵消 花费 在 开发 它 的 时 间 ， 这 样 才能 体现 价值 。 


查 ES 尔 定律 : (T saratie x N) 十 ep We ee dpa <T XN 
实现 并 行 时 ， 有 很 多 事情 会 影响 算法 ， 因 此 ， 并 行 开 发 与 串 行 开 友 实现 相 比 ， 可 能 需要 耗费 相当 大 的 精力 。 


缩放 会 立即 向 测试 矩阵 中 添加 一 个 额外 的 维度 。 另 外 ， 如 果 你 想 在 实现 中 使 用 直接 消息 传递 ， 那 么 这 个 低级 编程 会 有 更 多 出 现 错误 的 机 会 ， 特 别 是 那些 具有 时 序 依赖 
性 的 程序 ， 直 到 它们 在 特定 的 并 行 级 别 运 行 时 才 会 显示 出 来 。 


还 需要 考虑 并 行 实现 与 串 行 实现 产生 的 结果 略 有 不 同 或 者 在 计算 上 的 不 可 重复 性 。 我 们 将 在 本 章 后 面 探讨 这 些 例子 。 
应 该 特别 注意 的 是 ， 由 于 系统 库 版 本 变化 或 不 同 底层 计算 FPU 硬 件 的 算术 行为 ， 串 行 执行 使 用 与 并 行 执行 平台 完全 分 离 的 机 器 环境 ， 可 能 会 友 生 行为 上 的 差异 。 


当然 ， 如 果 你 计划 与 那些 使 用 你 的 并 行 化 算法 受益 的 人 分 享 劳动 的 成 果 ， 那 么 努力 去 争取 一 应 该 意识 到 随 着 核心 技术 的 进步 ， 处 理 器 速度 、 高 速 缓 趣 、 和 存储 器 容量 和 
数据 传输 寓 宽 等 会 迅速 友 展 。 你 为 “今天 ”实现 和 测试 的 以 构 可 能 会 很 大 程度 地 改变 “明天 ”。 因 此 ， 至 少 要 确保 并 行 代 码 执行 是 有 效率 的 持续 开销 。 


6.2 SUBEN 


问题 : 在 R 语 言 中 计算 1，1/2，1/3 直 到 1/500000 这 些 连 续 分 数 的 和 会 得 到 什么 ， 让 我 们 看 看 
这 里 有 一 些 简 单 的 代码 ， 它 建立 分 数 的 向 量 : 


v <- 1:500000 
for (i in 1:1length(v)) 
{ 

v[1] = 1/4 
} 
> ví1] 
IA 4 
» v[2] 
[1] 0.5 
> v[3] 
I1] 0.3333333 
» v[500000] 
[1] 2e-06 


现在 ， 让 我 们 明确 地 计算 向 量 中 所 有 元 素 的 和 : 


suma <- 0.0 


for (i in 1:length(v)) 


{ 

suma = suma + v[i] 
} 
> suma 


[1] 13.69958 


这 似乎 很 好 。 所 以 ， 让 我 们 看 看 如 果 把 数字 反 过 来 相 加 会 友 生 什么 : 


sumz <- 0.0 


for (i in length(v) :1) 


sumz = sumz + v[i] 


> sumz 
11] 13.69958 
很 棒 ， 得 到 了 同样 的 答案 。 这 一 切 都 很 好 .…… 
事实 上 ， 让 我 们 仔细 看 看 : 
> print(suma,digits-15) 
[1] 13.6995800423056 
> print (sumz,digits=15) 
[1] 13.6995800423055 
这 里 还 看 不 出 任何 问题 ? 
如 果 我 们 尝试 计算 到 1/5000000 会 发 生 什么 ? 看 一 看 吧 。 
> print (suma,digits=15) 
[1] 16.0021642352986 


> print (sumz,digits=15) 


[1] 16.0021642353001 


现在 ,我 们 友 现 两 种 计算 和 的 方式 从 第 10 位 小 数 的 地 方 产生 了 不 同 的 结果 ! 


因此 ， 问 题 的 答案 是 : 它 取决 于 你 把 数字 相 加 的 顺序 。 嗯 ， 也 许 这 不 是 你 所 期 望 的 。 


GAS? 当然 ,一 定 有 什么 不 对 。 结 果 为 何不 同 ， 又 是 如 何不 断 变 差 ? 
嗯 ， 这 一 切 都 归结 于 浮 点 数 的 数值 精度 在 数学 运算 之 间 传 递 的 累积 误差 。 例 如 ，1/3 当 然 不 能 用 任何 形式 的 浮 点 精度 精确 表示 ， 其 他 一 些 分 数 也 是 这 样 。 计 算 机 的 存 


储 器 是 有 容量 限制 的 ， 因 此 要 表示 这 样 的 数量 必须 进行 近似 。 因 此 ， 对 这 样 的 数 进行 算术 运算 也 是 近似 的 ， 并 且 根 据 正 在 进行 的 数字 组 合 运算 差异 而 变化 。 因 此 ， 即 使 对 
相同 的 数字 集合 进行 计算 ， 进 行 近似 算术 计算 的 顺序 不 同意 味 着 不 同 的 运算 误差 值 ， 因 此 会 产生 稍微 不 同 的 近似 运算 结果 。 


这 一 执行 结果 的 观察 对 于 比较 并 行 执 行 与 串 行 执行 的 结果 或 者 并 行 N 个 处 理 器 与 N + 1 个 处 理 器 执行 结果 的 正确 性 具有 重要 意义 。 如 果 以 不 同 的 顺序 呈现 和 处 理 这 样 的 
数字 数据 ， 并 且 通 剃 导致 这 种 情况 友 生 ， 则 结果 可 能 不 同 。 随 着 我 们 增加 所 涉及 的 数值 数据 的 量 ， 误 差 可 能 增加 ， 并 且 结果 的 差异 将 进一步 增 大 。 


“整数 也 会 犯错 误 


我 们 不 只 是 必须 关注 近似 表示 的 非 整 数 数字 ， 也 有 准确 表示 整数 的 问题 。 当 实现 并 行 运行 的 数据 集 规模 远大 串 行 运行 的 数据 集 规模 时 ， 我 们 需要 更 加 意识 到 数值 表示 
的 界限 。32 位 有 符号 整数 (有 的 本 征 整 数 类 型 是 32 位 有 符号 整数 ) 可 以 表示 的 上 限 值 是 2147483647。 让 我 们 看 看 跟踪 它 处 理 所 有 数据 项 的 算法 过 程 。 当 囊 行 运行 时 ， 数 据 
项 的 数量 永远 不 会 期 望 达到 这 样 的 整数 极限 ， 但 是 当 运 行 算法 的 并 行 版 本 时 ， 这 样 的 假设 可 能 不 再 适用 。 虽 然 R 可 以 自动 执行 从 一 个 整数 到 双 精 度 的 转换 ， 其 中 双 精 度 通 
常 采 用 64 位 表示 ， 但 是 当 使 用 C/C++ 或 Fortran 构 建 的 R 添 加 包 时 ， 这 样 的 值 表示 更 加 硬 连 接 的 。 因 此 ， 当 通过 添加 包 的 函数 接口 来 回 传 递 值 的 时 候 ， 你 必须 要 注意 数据 是 
如 何 被 截断 或 者 被 缺失 掉 的 。 


即使 当 利用 64 位 双 精 度 运 算 时 ， 运 算 洪 出 也 会 在 程序 中 造成 充 雇 的 输出 和 难以 确定 的 错误 异常 。 更 糟 的 是 ， 它 们 甚至 可 能 被 忽视 。 


当然 ， 对 于 某 些 应 用 程序 ， 如 模拟 或 近似 最 优 解 搜 索 ， 任 何 情况 下 都 是 近似 的 ， 因 此 这 可 能 不 是 问题 。 另 一 方面 ， 最 极端 的 算法 可 以 是 数据 选择 排序 或 更 精确 的 数据 
表示 与 精确 的 非 浮 点 运算 单元 计算 ， 然 而 这 两 种 方法 将 产生 显著 的 开销 ， 可 能 会 否定 一 些 并 行 化 的 基本 理论 。 


最 终 ， 我 们 必须 实现 的 是 ， 数 值 结果 只 有 在 我 们 选择 使 用 的 数字 机 器 表示 的 约束 内 才 是 准确 的 。 当 运行 串 行 代码 时 ， 人 们 经 常 忽略 这 个 方面 ， 因 为 这 样 的 代码 对 于 给 
定 的 输入 总 是 产生 相同 的 结果 。 然 而 ， 运 行 并 行 代码 会 市 一 些 问题 ， 即 使 以 相同 的 并 行 度 在 相同 输入 上 重复 执行 相同 的 并 行 代码 ， 也 可 能 产生 与 移 前 执行 稍 有 不 同 的 结 
果 ， 特 别 是 在 代码 可 能 涉及 用 于 消息 交换 的 时 变通 信 时 。 这 些 效应 难以 预测 ， 并 且 人 在 本 质 上 是 随机 的 。 而 且 ， 杀 爱 的 读者 ， 是 该 完美 地 进入 下 一 个 主题 了 一 随机 数 。 


6.3 ”随机 数 


随机 数 在 并 行程 序 中 具有 新 的 意义 ， 因 为 通常 你 希望 在 一 组 协作 并 行进 程 中 使 用 不 同 的 随机 数 序 列 。 模 拟 和 最 佳 搜索 类 型 工作 负 答 是 最 好 的 例子 。 


尽管 加 密 不 是 非 党 安全， 但 默认 的 随机 数 生成 器 梅森 旋转 算法 (Mersenne Twister) ， 通 常 认 为 是 一 个 质量 好 的 伪 随 机 数 生 成 器 。 


— P (Mersenne Twister) 

为 了 更 好 地 了 解 随机 数 生成 器 (Random Number Generator, RNG) 梅森 旋转 算法 ， 你 可 以 参考 : 
https://en.wikipedia.org/wiki/Mersenne_Twister 
http://www.math.sci.hiroshima-u.ac.jp/~m-mat/MT/emt.html 

当然 ， 你 可 以 从 内 置 集合 中 选择 备用 生成 器 ， 或 者 使 用 R random 添 加 包 函 数 RNCKind () 。 


R 本 身 一 直 是 单线 程 实现 ， 而 不 是 在 它 自己 的 语言 原 语 中 使 用 并 行 性 。 它 依赖 于 专门 实现 的 外 部 添加 包 库 来 实现 某 些 加 速 功能 并 允许 使 用 并 行 处 理 框架 。 正 如 我 们 讨 
论 的 ， 这 些 并 行 框 染 的 一 般 实现 是 基于 单程 序 多 数据 (SPMD) ， 意 味 着 一 个 程序 的 可 执行 文件 或 计算 指令 的 序列 可 以 在 多 个 并 行进 程 中 复制 ， 但 每 个 进程 维护 其 自己 的 
独立 状态 ， 即 它 具 有 独立 的 内 存 用 于 其 R 对 象 和 变量 。 

如 果 我 们 在 每 个 并 行进 程 上 要 求 一 个 随机 数 ， 那 么 所 有 进程 将 返回 相同 的 随机 数 序 列 。 我 们 需要 做 的 是 为 每 个 并 行进 程 显 式 地 设置 不 同 的 种 子 值 。 

根据 所 使 用 的 并 行 性 类 型 ， 我 们 可 以 选择 从 主 进程 生成 唯一 种 子 的 序列 ， 并 将 下 一 个 未 使 用 的 种 子 作为 并 行 任务 摘 述 的 一 部 分 传递 给 下 一 个 空 亲 工作 者 以 执行 任务 。 


这 里 是 一 个 例子 : 


# master process initializes a set of ten random numbers 
# between 1 and 10 to distribute to workers 

x real <- runif(10,1.0,10.0) F 1.0 « x « 10.0 

x integer <- sample(1:10,10) $ 1 c= x <= 10 


我 们 可 以 使 用 进程 的 唯一 标识 符 ， 或 者 在 任务 数量 超过 并 行进 程 的 地 方 ， 将 唯一 的 任务 号 作为 种 子 的 一 部 分 。 你 可 以 借助 当前 的 时 钟 时 间 (以 毫秒 计 ) 来 帮助 产生 随 
机 数 生 成 器 种 子 : 将 其 与 先前 所 有 列 出 的 选项 结合 在 一 起 来 产生 一 个 适用 于 你 所 选择 的 RNG 的 与 众 不 同 的 随机 数 种 子 。 
# worker processes each set their own unique seed based 
# on their process id and seconds time in milliseconds accuracy 
# and (if applicable) the unique id for the task itself 
task <- getNextTask() # illustrative pseudocode call 
seed <- Sys.getpid() * as.numeric (format (Sys.time(),"%OS6") ) 


set.seed(seed * getTaskId(task) ) 


天 键 需求 是 它 必 须 是 并 行进 程 本 身 ， 该 进程 用 它 唯一 的 种 子 值 调用 Set Seed () ， 并 且 对 于 每 个 并 行 任务 这 是 可 以 实现 的 ， 因 为 你 不 应 该 假设 给 每 个 进程 分 配 相同 的 
任务 集合 来 顺序 处 理 ， 因 为 可 能 产生 上 自 适 应 负载 平衡 任务 场 。 


Q MPI 随机 数 
如 果 你 使 用 pdbR MPI， 那 么 这 个 添加 包 提 供 了 一 个 在 并 行进 程 中 创建 独立 随机 数 流 的 简单 机 制 。 
library (pbdMPI, quiet = TRUE) 
init () 
comm.set.seed(diff-TRUE) 
x real «- runif(1,1.0,10.0) 
这 个 函数 也 可 以 在 所 有 并 行进 程 中 创建 一 个 相同 的 随机 数 流 ， 应 该 通过 用 difft=false 参 数 来 调用 该 进程 。 
多 随机 数 的 生成 可 以 使 用 在 https:/ /cran.r-project.org/web/packages/rlecuyer/index.html P 4rlecuyer# Jm & 0 


无 论 你 使 用 什么 样 的 方案 来 设置 随机 种 子 ， 重 要 的 是 要 记录 每 个 并 行进 程 使 用 的 种 子 值 。 如 果 没 有 做 到 这 一 点 ， 当 你 想 要 复制 生成 的 结果 或 触 和 及 相同 的 计算 行为 以 及 
跟踪 一 个 程序 错误 时 ， 你 将 无 法 将 种 子 再 次 设置 为 与 之 前 相同 的 值 。 同 样 重要 的 是 ， 你 可 能 会 在 代码 中 使 用 其 他 R 添 加 包 中 的 函数 ， 它 们 本 身 会 使 用 标准 随机 数 流 。 


64 Fak 


死 锁 是 影响 基于 显 式 消息 传递 的 并 行 代码 的 经 典 问 题 。 当 执行 的 进程 或 线程 等 待 接收 未 友 送 的 消息 或 者 上 友 送 消息 时 预期 的 接收 者 没有 侦 听 且 永 远 不 会 接收 消息 时 ， 会 
出 现 这 种 情况 。 

在 计算 中 ， 死 锁 这 个 概念 起 源 于 多 个 代理 对 具有 互 斥 访问 限制 的 共享 资源 的 访问 这 样 的 情景 。 例 如 ， 人 存储 一 个 值 的 存储 器 部 分 需要 经 过 锁定 机 制 来 进行 更 新 ， 锁 定 机 
制 要 求 在 一 个 时 间 内 只 能 一 个 代理 具有 对 资源 的 访问 权限 。 比 如 ， 想 象 从 多 个 ATM 机 同时 对 一 个 共享 银行 账户 进行 访问 。 这 种 情况 下 ， 如 果 先 前 代理 没有 释放 对 该 账户 的 
锁定 ， 则 其 他 代理 不 能 对 锁定 的 账户 进行 访问 ， 需 要 进行 排队 等 待 。 

典型 的 死 锁 情况 是 ， 代 理 A 已 经 访问 资源 1，B 已 经 访问 资源 2， 代 理 A 正 在 等 待 访问 资源 2 (B 现 在 独占 ) ， 同 样 ， 代 理 B 正 在 等 待 访问 资源 1 (A 现在 独占 ) 。 任 何 代理 
都 不 能 继续 ， 因 此 已 经 产生 死 锁 。 


使 用 MPI 进 程 之 间 的 阻塞 通信 构造 死 锁 示例 很 简单 。 从 以 下 pbdR 示 例 中 删除 init () 和 finalize () 函数 ， 它 简单 地 将 MPI 进 程 的 排名 标识 传递 给 其 下 一 个 数字 排名 更 
高 的 近邻 。 也 就 是 说 ， 从 前 奎 到 后 继 ， 从 最 后 一 个 进程 到 第 一 个 进程 的 循环 。 看 看 下 面 的 代码 : 


r <- .comm.rank 


succ «- (r + 1) %% .comm.size 


pred <- (r - 1) %% .comm.size 

v <- 1:1000 # dimension vector v 

v[1] <- r 4 set first element to my MPI communicator rank 
w «- 1:1000 4 receive into vector w 

send(v,rank.dest=succ) # Send v to my next in rank 


recv(w,rank.source-pred) d Recv w from my previous in rank 


comm.print(sprintf("%d received message from 
%a",r,w[1]),all.rank=TRUE) 


你 可 以 用 两 个 或 者 你 想 要 的 更 多 进程 来 运行 这 个 例子 ， 它 会 友 生 死 锁 。 所 有 的 进程 将 会 卡 在 它们 的 友 送 调用 (send) 上 。 要 避免 这 种 情况 ! 


究竟 什么 导致 友 生 这 种 情况 ， 取 决 于 MPI 的 实现 行为 。 我 们 在 这 个 例子 中 使 用 了 阻塞 及 送 和 接收 ， 因 此 你 可 能 想 知 道 当 没有 事先 匹配 的 接收 时 应 该 如 何 友 送 数据 。 
MPI 有 精细 的 设计 来 提升 性 能 。 


在 MPI 中 ， 可 以 通过 向 指定 的 接收 器 分 派 消息 并 保存 在 MPI 通 信子 系统 内 的 友人 送 者 或 预期 接收 者 直到 执行 匹配 的 接收 来 实现 阻塞 上 友 送 。 事 实 上 ， 这 种 行为 模式 是 MPI 
标准 的 一 部 分 。 阻 塞 发 送 只 定义 为 阻塞 ， 意思 是 系统 不 会 从 阻塞 友 送 返回 任何 控制 ， 直 到 它 可 以 自由 地 使 程序 重用 发送 缓冲 区 或 R 对 象 。 也 就是 说 ,程序 可 以 自由 地 改变 
其 内 容 或 状态 。 在 这 个 意义 上 ， 数 据 可 以 认为 是 已 发 送 但 尚未 接收 到 。 然 而 ， 这 种 行为 当然 取决 于 是 否 有 足够 的 存储 器 资源 来 临时 缓存 所 发 送 消息 的 副本 (等 待 匹配 接 
收 ) ， 从 而 释放 R 程 序 级 友 送 缓冲 区 。 


在 我 自己 的 笔记 本 电脑 上 ， 如 果 我 现在 将 向 量 的 最 大 容量 设置 为 10000 (你 自己 的 截止 值 可 能 会 有 所 不 同 ) ,那么 MPI 子 系统 的 内 部 缓存 是 不 足 的 ， 并 且 它 将 无 法 维 
护 所 友 送 数据 的 不 同 高 速 组 存 副 本 。 随 后 的 MPI 友 送 调用 将 无 限期 地 阻塞 ， 因 为 它 需 要 调用 匹配 的 接收 调用 ， 以 及 足够 分 配 的 缓冲 区 存储 器 ， 以 使 得 大 于 数据 的 高 速 缓存 
传输 发 生 。 因 为 所 有 进程 都 执行 发 送 没 有 匹配 接收 ， 所 以 将 导致 死 锁 。 
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正如 我 们 所 指出 的 ， 至 关 重 要 的 是 不 要 假设 MPI 系 统 是 如 何 实现 的 ， 或 者 这 样 的 实现 可 能 执行 或 可 能 不 执行 抢占 式 部 分 消息 传递 。 这 种 类 型 的 实现 行为 是 为 什么 要 成 
规模 的 测试 你 的 代码 的 另 一 个 重要 原因 ， 成 规模 的 测试 是 指 除 了 改变 并 行 的 数量 规模 外 ， 还 需要 改变 数据 量 的 规模 。 从 最 小 限度 上 而 言 ， 我 发 现 最 好 是 测试 1 到 9 个 进程 来 
涵盖 较 低 数目 的 进程 数量 ， 包 括 平凡 的 单 处 理 器 情况 ， 素 数 、 平 方 数 和 算 形 数 等 数量 的 进程 ， 这 通常 能 够 测试 到 各 种 边际 的 通信 模式 情况 。 对 于 基于 2D 网 格 的 并 行 性 ， 将 
在 25 个 进程 中 进行 测试 。 需 要 注意 的 是 ， 对 于 MPI， 即 使 只 有 一 个 核心 机 器 ， 你 也 可 以 创建 尽 可 能 多 的 进程 (在 系统 内 存 限制 内 ) ， 当 然 这 时 代码 将 运行 缓慢 ,但 这 有 助 
于 暴露 时 间 窗 口 依赖 行为 ， 因 为 进程 计数 超过 核心 计数 意味 着 进程 不 能 同时 实时 进行 所 有 的 执行 。 


避免 死 锁 


有 3 个 简单 的 死 锁 示例 代码 的 重 写 方法 可 以 确保 无 论 多 少数 据 交 换 也 不 会 导致 死 锁 。 首 先 ， 我 们 可 以 确保 只 有 一 些 进程 友 送 消息 ， 而 其 他 进程 接收 。 以 下 代码 片段 确 
保 偶 数 排名 的 进程 友 送 消息 ， 而 奇数 排名 的 进程 接收 消息 ， 然 后 转换 为 为 奇数 排名 的 进程 友 送 消息 ， 偶 数 排名 的 进程 接收 消息 。 


if (r $$ 2 == 0) ( # even 
send(v,rank.dest=succ) 
w <- recv(w,rank.source = pred) 
} else { # odd 
w <- recv(w,rank.source = pred) 


send(v,rank.dest = succ) 


或 者 ， 我 们 可 以 利用 pbdR MPI 的 非 阻塞 jyend 方 法 ， 这 样 所 有 进程 处 理 直 接 变 为 接收 而 不 是 等 竺 点 送 。 注 意 ， 为 了 执行 和 民 好 实现 ， 我 们 还 在 接收 之 后 等 待 友 送 请 求 
(数字 1) ， 以 确保 上 友 送 完成 。 但 在 这 个 例子 中 ， 它 不 是 严格 必需 的 。 看 看 下 面 : 


isend(v,rank,dest=succ,request=1)# Send non-blocking 
w <- recv(w,rank,source-pred) # Recv blocks 


wait (request=1)# Wait for nb-send to complete (it must have) 


Finally, we can also use MPI's higher-level combined SendRecv function thus: 


sendrecv(v, x.buffer=w, rank.dest=succ, rank.source=pred) 


你 选择 的 确切 形式 取决 于 算法 的 性 质 。 当 每 个 进程 企 近 锁 定 步骤 中 执行 相同 的 程序 序列 时 ， 如 果 你 想 接 收 你 发 送 的 同一 个 对 象 中 的 新 内 容 ， 那 么 gendRecv 或 者 
SendRecvReplace 是 一 个 不 错 的 选择 。 当 每 个 进程 与 可 变 工作 松散 耦合 以 进行 处 理 时 ， 非 阻塞 通信 模式 可 以 更 有 效率 ， 但 是 具有 额外 的 代码 开销 以 管理 未 完成 的 通信 。 当 
需要 执行 更 复杂 但 规则 化 的 通信 模式 ， 且 均匀 分 配 处 理 负 载 时 ， 则 可 以 选择 市 有 特定 顺序 的 send 阔 数 和 相 匹 配 的 recv 函 数 。 


6.5 “减少 并 行 开 销 


每 个 并 行 算法 都 有 自己 的 开销 ， 特 别 是 在 并 行 的 设置 、 在 一 组 处 理 器 之 间 分 配 工作 以 及 分 解 编译 自 该 组 处 理 器 的 聚合 结果 时 。 

为 了 获得 关于 如 何 减 少 这 些 开销 的 处 理 ， 让 我 们 先 来 看 看 结果 聚合 的 过 程 。 

下 图 显示 了 一 个 非常 典型 的 利用 15 个 独立 工作 节点 的 Master-Worker 任 务 场 样式 的 方法 。 在 这 种 情况 下 ，Worker 承 担 的 每 个 单独 的 任务 有 助 于 筷 体 结果 。 
每 个 Worker 将 其 生成 的 部 分 结果 传送 回 Master， 然 后 Master 处 理 所 有 部 分 结果 以 产生 最 终 的 罕 加 结果 ，。 

我 们 还 要 考虑 每 个 Worker 任 务 花 费 相 同 的 计算 量 ， 因 此 ， 每 个 Worker 在 大 约 相 同 的 时 刻 完成 其 任务 。 


从 图 6-2 中 不 难看 出 ， 来 自 每 个 Worker 对 Master 同 时 发 起 的 服务 结果 信息 可 能 会 引起 最 大 的 通信 竞争 情况 。Master 还 必须 处 理 N 个 部 分 结果 以 产生 最 终 的 组 合 结果 。 
对 于 某 些 算法 ， 该 最 终 步 又 本 身 可 能 需要 重点 计算 。 


如 果 WorkerJE 在 进行 的 任务 是 完全 独立 的 ， 也 就 是 说 ，Worker 在 执行 任务 时 不 需要 彼此 通信 ， 并 且 有 足够 多 的 任务 或 持续 的 任务 流 执 行 。 有 多 个 导致 任务 多 于 
Worker 的 因素 ， 即 建立 和 拆除 的 开销 可 以 由 Master 有 效 地 摊 销 ， 确 保 它 立即 向 Worker 发 出 新 的 任务 ， 并 且 Worker 返 回 先前 任务 的 结果 。 然 后 可 以 调整 Worker 任 务 的 大 
小 和 数量 ， 使 系统 可 以 建立 有 效 状态 ， 由 此 几乎 没有 等 待 时 间 ， 并 且 所 有 处 理 器 实现 接近 100% 的 利用 率 。 


任务 分 配 


Master 


节点 1 


TAL 


Worker 


图 6-2 Master-Worker Ze Ar Æ 
然而 ， 对 于 那些 不 适合 这 样 处 理 的 问题 ， 例 如 所 有 的 处 理 器 同步 或 者 异步 的 介入 彼此 的 任务 的 情况 下 ， 束 需要 不 同 的 方法 。 


图 6-3 显 示 了 作为 二 叉 树 结构 重新 排列 的 Master 执 行 结 果 和 Worker 执 行 结 果 的 通信 。 这 里 ， 我 们 能 够 在 Worker 之 间 传 播 部 分 结果 的 计算 ， 而 不 是 依靠 Master 来 执行 
所 有 的 结果 聚合 。 
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图 6-3  Mastet-Workerds] JE Ar Æ 


结果 聚合 的 过 程 从 底层 的 Worker 节 点 对 开始 ， 如 8 和 9、10 和 和 11 等 ， 将 它们 的 部 分 结果 发 送 到 指定 为 父 节 点 的 单个 节操 ， 例 如 Worker 节 点 4~ 7， 然 后 聚合 它们 在 阶段 
1 中 接收 的 结果 。 它 们 将 部 分 聚合 结果 馈送 给 阶段 2 的 Worker 节 点 2 和 3， 最 终 ，Master 节 点 在 阶段 3 接收 进一步 的 部 分 聚合 结果 。 在 该 树 形 排列 中 ，Master 仅 具有 两 组 要 
处 理 的 结果 ， 而 不 是 如 前 面 花形 排列 中 的 全 部 15 个 。 


如 果 我 们 假设 结果 处 理 的 所 有 其 他 方面 都 是 相等 的 ， 那 么 我 们 就 可 以 将 花形 排列 的 结果 聚集 开销 O(N) 减少 为 O(log2N) 的 树 形 排列 开销 ， 其 中 N 是 处 理 器 的 数 
量 。 如 图 6-4 所 示 。 
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6-4 ”基于 树 形 的 结果 聚集 为 logN 的 时 间 复 杂 度 


我 们 所 做 的 是 通过 构建 一 个 适用 于 广义 任务 场 以 及 Map/Reduce 背 景 的 更 复杂 的 多 级 实现 来 并 行 化 结果 。 我 们 不 应 该 忘记 Chapple 定 律 ， 这 是 一 个 重大 的 改进 ， 但 随 
着 我 们 使 用 更 高 阶 的 并 行 性 ， 这 种 特殊 的 O(log2N) 方法 变 得 更 有 效 并 最 小 化 开销 成 本 。 


树 方法 也 可 以 应 用 于 初始 任务 分 配 过 程 。 输 入 数据 可 能 需要 预 处 理 以 将 其 分 割 为 较 小 的 任务 (Map) 。 与 聚合 操作 (Reduce) 相 比 ， 这 种 努力 可 以 在 反 向 流 中 的 树 
排列 上 扩展 。 


当然 ， 通 信 的 频率 和 大 小 也 影响 并 行 开销 。 可 以 通过 对 输入 数据 在 其 消耗 的 点 本 地 化 来 最 小 化 数据 传输 成 本 。 甚 至 可 以 在 处 理 节 点 的 本 地 存储 器 中 保持 一 些 级别 的 重 
或 重 硬 数据 是 值得 的 ， 这 样 可 以 减少 在 并 行 算 法 的 执行 期 间 所 需要 的 通信 数量 。 在 大 多 数 形式 的 通信 中 ， 两 个 端点 在 数据 交换 的 持续 时 间 内 被 绑 定 。 在 某 些 情况 下 ， 其 
交换 压缩 数据 并 使 用 处 理 器 周期 来 压缩 /解压 缩 消息 以 便 最 小 化 传送 的 持续 时 间 也 是 值得 的 。 
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6.6” 目 运 应 负载 均衡 


在 此 之 前 ， 我 们 注意 到 创建 均衡 的 工作 负载 是 多 么 重要 ， 那 里 每 个 任务 计算 的 时 间 是 相等 的 。 


6.6.1 任务 场 


当 有 比 Worker 更 多 可 用 的 任务 并 且 每 个 任务 是 真正 独立 时 ， 一 个 任务 场 是 一 个 简单 的 并 行 处 理 方案 ， 该 方案 通过 Master 将 下 一 个 可 用 的 任务 提供 给 下 一 个 自由 的 
Worker 和 确保 Worker 的 利用 率 是 100%， 如 图 6-5 所 示 。 
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图 6-5 具有 混合 独立 变量 计算 任务 的 任务 场 


在 这 种 情况 下 ， 每 个 任务 随 它 需要 的 计算 量变 化 并 不 重要 ， 因 为 (2D) 在 计算 阶段 没有 任务 间 依 赖 。 


6.6.2 有效 的 网 格 处 理 


当 Worker 必 须 在 它们 的 任务 执行 期 间 合 作 时 ， 则 Worker 之 间 的 工作 量变 化 可 能 导致 差 的 利用 率 ， 有 些 Worker 不 得 不 在 它们 任务 的 执行 期 间 等 待 其 他 Worker 完 成 中 
间 的 处 理 步骤 。 


作为 一 个 例子 ， 让 我 们 来 看 看 图 像 处 理 ， 特 别 是 边缘 检测 。 我 们 有 一 个 5x 5 处 理 器 的 网 格 ， 每 个 处 理 器 工作 在 一 个 大 的 10kx 10Kk 像 素 图 像 的 一 个 单独 的 子 区 域内 ， 而 
25 个 处 理 器 中 的 每 一 个 处 理 2kx2k 像 素 层 。 边 缘 检 测算 法 的 性 质 是 ， 它 的 时 间 复 杂 度 是 图 像 中 边 数 的 遂 数 。 并 行 边 缘 检 测算 法 还 需要 对 处 理 节 点 的 8 个 空间 邻居 之 间 的 派 
生 数 据 进 行 周期 性 的 边界 交换。 让 我 们 考虑 处 理 一 个 整体 边 绿 为 非 均匀 分 布 密度 的 图 像 ， 事 实 上 ， 在 图 形 的 小 的 子 区 域 上 密度 可 以 变化 很 大 。 观 察 下 面 生成 的 分 形 图 像 ， 
在 图 像 内 的 不 同 区 域 边 绿 复杂 性 变化 巨大 ， 如 图 6-6 所 示 。 
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我 们 还 假设 边缘 检测 的 第 一 阶段 执行 逐 像素 分 析 ， 具 有 相同 的 时 间 复 杂 度 而 不 考虑 瓦 片 边缘 密度 ， 并 且 能 够 估计 边缘 过 渡 的 数量 。 由 此 ， 我 们 可 以 创建 单个 瓦 片 集合 
后 续 处 理 的 成 本 分 布 图 ， 如 图 6-7 所 示 。 


我 们 可 以 使 用 成 本 分 布 来 确定 将 实现 的 利用 率 水 平 ， 这 将 在 整个 处 理 器 网 格 中 实现 ， 天 键 是 它 是 否 更 优 于 采用 单个 瓦 片 并 使 用 全 网 格 插入 一 个 额外 任务 来 处 理 ， 这 样 
在 完成 较 大 规模 全 尺寸 2Kx 2k 瓦 片 图 像 处 理 前 ， 每 个 处 理 器 将 处 理 一 个 400x400 像 素 。 


25x2000 像 素 方形 瓦 片 25 x400 像 素 方形 瓦 上 
9% 网 格 利用 率 65% 网 格 利 用 率 


图 6-7 图 像 瓦 片 边缘 处 理 的 成 本 示例 


在 图 6-7 给 出 的 示例 中 ， 将 显示 完整 的 图 像 成 本 分 布 ( 左 ) 和 扩展 的 底部 角落 瓦 片 ( 右 ) 。 处 理 器 网 格 对 稠密 的 角落 层 的 单独 处 理 可 以 更 好 地 综合 、 有 效 地 利用 并 行 
机 制 。 


6.6.3 成 功 并 行 化 b3 个 步骤 

以 下 3 步 的 目的 是 帮助 你 决定 什么 并 行 形式 可 能 是 最 适合 你 的 特定 算法 /问题 ， 并 总 结 了 在 本 书 中 所 学 到 的 东西 。 必 然 地 ， 它 具有 一 定 的 概括 性 ， 因 此 ， 应 用 这 些 准则 
时 要 进行 必要 的 思考 。 

1) 确定 可 能 最 适合 应 用 于 你 的 算法 的 并 行 类 型 。 


你 正在 解决 的 问题 是 计算 绑 定 还 是 数据 绑 定 ” 如 果 是 前 者 ， 你 的 问题 可 以 通过 GPU (参阅 5.1 节 ) 解决 。 如 果 是 后 者 ， 那 么 你 的 问题 可 能 更 适合 于 基于 集群 的 计算 ( 参 
见 第 1 章 ) 。 如 果 你 的 问题 需要 一 个 复杂 的 处 理 链 ， 那 么 可 以 考虑 使 用 的 火化 框架 。 


在 所 有 的 过 程 中 ， 可 以 将 问题 数据 /空间 划分 ， 以 便 在 所 有 处 理 器 上 实现 均衡 的 工作 量 ， 或 者 你 需要 使 用 自 适 应 负载 均衡 方案 (例如 ， 一 个 基于 任务 场 的 方法 ) 吗 ? 
你 的 问题 /算法 上 自然 地 划分 空间 吗 ? 如 果 是 ， 考 虑 是 否 可 以 使 用 基于 网 格 的 并 行 方法 (参见 第 3 章 ) 。 

也 许 你 的 问题 是 一 个 特大 数量 级 的 ? 如 果 是 这 样 ， 也 许 开 友基 于 消息 传递 的 代码 ， 并 在 超级 计算 机 上 运行 它 WAS). 

任务 之 间 是 否 有 一 个 隐 合 的 顺序 依赖 关系 ? 进程 在 计算 过 程 中 需要 合作 和 共享 数据 吗 ? 每 一 个 单独 分 开 的 任务 可 以 完全 彼此 独立 地 执行 吗 ? 


一 个 大 比例 的 并 行 算法 通常 有 工作 分 配 阶段 、 并 行 计算 阶段 和 结果 聚合 阶段 。 为 了 降低 局 动 和 关闭 阶段 的 开销 ， 考 虑 基于 树 的 方法 分 配 工作 和 聚合 结果 是 否 适 合 你 的 
情况 。 


2) 确保 你 算法 中 的 计算 基础 有 最 佳 的 实现 。 

在 串 行 中 配置 你 的 代码 以 确定 是 否 有 任何 瓶 贷 ， 并 针对 这 些 进行 改进 。 

有 你 可 以 直接 使 用 或 采用 的 类 似 于 你 算法 的 现 有 算法 吗 ? 

在 https://cran.r-project.org/web/views/highperformancecom-puting 上 查看 CRAN 任 务 视图 : R 的 高 性 能 和 并 行 计算 。 
特别 是 ， 查 看 小 节 并 行 计算 : 应 用 程序 ， 图 6-8 是 写作 本 书 时 看 到 的 一 个 快照 : 

3) 测试 和 评估 你 实现 的 并 行 效 率 。 

使 用 本 章 前 面 提 及 的 Amdahl 定 律 的 Pestimated 预 测 你 可 以 实现 的 可 扩展 性 水 平 。 


在 不 同 数量 的 并 行 性 上 测试 你 的 算法 ,特别 是 触 友 边缘 情况 行为 的 奇数 。 别 志 了 用 一 个 进程 运行 。 用 多 个 进程 而 不 是 处 理 器 运行 将 触 友 潜在 的 死 锁 /竞争 条 件 (这 是 最 
适用 于 消息 传递 实现 ) 。 


在 可 能 的 情况 下 ， 为 了 减少 开销 ， 确 保 你 的 部 署 方法 /初始 化 将 被 消耗 的 数据 本 地 到 每 个 并 行 处 理 进 程 中 。 


6.6.4 ”未 来 将 会 怎样 


显然 ， 最 后 一 节 考 碟 “ 看 水 晶 球 ”的 风险 ， 并 判定 其 错误 性 。 然 而 ， 有 许多 清 落 的 方向 ， 在 这 些 方 向 中 我 们 看 出 硬件 和 软件 是 如 何 友 展 的 ， 弄 清楚 并 行程 序 将 起 到 更 
重要 的 作用 ， 在 我 们 未 来 计算 中 的 作用 也 会 增加 。 除 此 之 外 ， 为 确保 个 人 和 集体 信息 安全 ， 在 短 的 时 间 窗 口内 处 理 大 量 信 息 发 挥 着 至 关 重 要 的 作用 。 例 如 ， 我 们 正在 经 历 
的 气候 变化 和 极端 天 气 事件 显著 增加 ， 因 此 需要 越 来 越 多 精确 的 天 气 预测 来 帮助 我 们 应 对 这 些 ， 这 只 可 能 是 高 效 的 并 行 算 法 才 会 做 到 的 。 


并 行 计 算 : 应 用 


e The caret package by Kuhn can use various frameworks (MPI, NWS etc) to parallelized cross-validation and bootstrap 
characterizations of predictive models. 
The maanova package on Bioconductor by Wu can use snow and Rmpi for the analysis of micro-array experiments. 
The pvclust package by Suzuki and Shimodaira can use snow and Rmp) for hierarchical clustering via multiscale bootstraps. 
The tm package by Feinerer can use snow and Rmpi for parallelized text mining. 
The varSelRF package by Diaz-Uriarte can use snow and Rmpi for parallelized use of variable selection via random forests. 
The bcp package by Erdman and Emerson for the Bayesian analysis of change points can use foreach for parallelized 
operations. 
The multtest package by Pollard et al. on Bioconductor can use snow, Rmpi or rpvm for resampling-based testing of multiple 
hypothesis. 
The GAMBoost package by Binder for glm and gam model fitting via boosting using b-splines, the Geneland package by 
Estoup, Guillot and Santos for structure detection from multilocus genetic data, the Matching package by Sekhon for 
multivariate and propensity score matching, the STAR package by Pouzat for spike train analysis, the bnlearn package by 
Scutari for bayesian network structure learning, the latentnet package by Krivitsky and Handcock for latent position and cluster 
models, the lga package by Harrington for linear grouping analysis, the peperr package by Porzelius and Binder for parallised 
estimation of prediction error, the orloca package by Fernandez-Palacin and Munoz-Marquez for operations research locational 
analysis, the rgenoud package by Mebane and Sekhon for genetic optimization using derivatives the affyPara package by 
Schmidberger, Vicedo and Mansmann for parallel normalization of Affymetrix microarrays, and the puma package by Pearson 
et al. which propagates uncertainty into standard microarray analyses such as differential expression all can use snow for 
parallelized operations using either one of the MPI, PVM, NWS or socket protocols supported by snow. 
The bugsparallel package uses Rmpi for distributed computing of multiple MCMC chains using WinBUGS. 
The partDS A package uses nws for generating a piecewise constant estimation list of increasingly complex predictors based on 
an intensive and comprehensive search over the entire covariate space. 
The dclone package provides a global optimization approach and a variant of simulated annealing which exploits Bayesian 
MCMC tools to get MLE point estimates and standard errors using low level functions for implementing maximum likelihood 
estimating procedures for complex models using data cloning and Bayesian Markov chain Monte Carlo methods with support 
for JAGS, WinBUGS and OpenBUGS; parallel computing is supported via the snow package. 
The pmclust package utilizes unsupervised model-based clustering for high dimensional (ultra) large data. The package uses 
pbdMPI to perform a parallel version of the EM algorithm for finite mixture Gaussian models. 
The harvestr package provides helper functions for (reproducible) simulations. 
Nowadays, many packages can use the facilities offered by the parallel package. One example is pls, another is PGICA which 
can run ICA analysis in parallel on SGE or multicore platforms. 


图 6-8 可 以 在 你 程序 中 使 用 的 CRAN 并 行 添加 包 


为 了 预测 未 来 ， 我 们 需要 回首 过 去 。 可 以 用 来 并 行 计算 的 硬件 技术 在 许多 年 中 以 惊人 的 速度 友 展 。 从 近年 来 的 友 展 来 说 ， 这 种 友 展 程度 在 今天 可 以 通过 单片机 设计 来 
实现 是 让 人 大 跌眼镜 的 。 


NE HPCRSES SR 
作为 一 个 很 好 的 计算 能 力 发 展 的 信息 回顾 路 线 图 ， 建 议 你 访问 以 下 网 页 : 


http://pages.experts-exchange.com/processing-power-compated/. 


它 很 好 地 展示 了 这 样 的 问题 ， 例 如 2010 年 发 布 的 iPhone 4 是 如 何 与 1985 年 具有 每 秒 103 次 浮 点 运算 的 Cray 2 超级 计算 机 表现 近乎 相当 的 ; 2015 年 发 布 的 苹果 手表 如 
何 大 概 具 有 iPhone 4 和 Cray 2 性 能 的 两 倍 ! 


虽然 心 片 制造 商 已 经 设法 保护 昔 名 的 摩尔 定律 ， 该 定律 预测 的 晶体 管 数量 每 两 年 增加 一 倍 ， 但 在 单个 必 片 中 有 大 约 100 个 复杂 的 处 理 核心 ， 如 今 在 心 片 制造 中 是 14 纳 
X (nm) 。2015 年 7 月 ，IBM 宣 布 原型 心 片 为 7nm (宽度 是 人 头发 的 万 分 之 一 ) 。 有 些 科学 家 表明 量子 隧 穿 效应 将 在 5nm 处 产生 影响 (Intel 预 期 在 2020 年 走向 市 场 ) , 
尽管 有 些 研究 人 员 已 经 说 明 在 实验 军 中 像 石 墨 燃 这样 的 材料 单个 晶体 结构 仅 是 1nm 那 么 小 ， 但 相 比 于 如 今 的 心 片 大 小 ， 在 一 个 必 片 包 中 放置 1000 个 独立 的 高 性 能 计算 核心 
和 足够 数量 的 高 速 缓 仔 ， 在 未 来 10 年 中 是 有 可 能 的 。 


NIVIDA 和 Intel 可 以 襄 在 世界 上 最 快 的 超级 计算 机 中 ， 在 专用 HPC 心 片 与 各 自 产 品 的 使 用 上 是 处 于 前 沿 水平 的 ， 这 在 你 的 计算 机 票面 上 融会 看 到 。NIVIDA 生 产 的 
Tesla， 它 利用 4992 核 ( 双 处 理 器 ) 和 24GB 板 载 内 存 ，K80GPu 加 速 器 可 使 用 峰值 为 1.87 双 精度 浮 点 和 5.6 单 精度 浮 点 。1Intel 制 造 Xeon Phi， 它 是 许多 具有 集成 内 核 
(MIC) 体系 结构 的 处 理 器 家 族 的 品牌 名 称 。 将 在 2016 年 友 布 的 Knights Landing 是 一 个 锋 新 的 、 利 用 72 核 ( 单 处 理 器 ) 和 16GB 的 高 度 集成 心 片 上 的 快速 存储 器 ， 预 期 


达到 3x1012 次 浮 点 数 运算 速度 和 6x1012 次 度 单 精度 浮 点 运算 速度 。 


这 些 芯片 的 继任 者 ， 即 NVIDIA 称 之 为 Volta， 英 特 尔 称 之 为 Knights， 在 2018 年 将 是 下 一 代 美 国 2 亿美 元 超级 计算 机 的 基础 ， 达 到 约 150x101<~ 300x101“ 次 浮 点 数 
运算 的 峰值 性 能 ( 约 为 15 亿 个 iPhone 4s 手 机 ) ， 中 国 的 TIANHE-2， 具 有 来 自 310 万 核 大 约 50 干 亿 次 的 最 佳 性 能 ，2015 年 它 是 世界 上 最 快 的 计算 机 。 


在 另 一 个 极端 ， 体 积 较 小 和 不 是 那么 昂贵 的 移动 设备 中 ， 尽 管 也 有 ARM 的 8 核 大 LITTLE 处 理 器 ， 但 是 现在 最 常用 的 还 是 2 ~ 4 核 的 处 理 器 。 然 而 ， 处 理 器 的 核 数 还 在 增 
加 ， 联 发 科技 的 新 友 布 的 MT6797 有 10 个 核 ， 它 为 下 一 代 移动 电话 而 设计 ， 划 分 为 一 对 和 两 组 4 核 的 具有 不 同时 钟 速度 和 频率 的 处 理 器 。 因 此 ， 高 端 移动 设备 展现 出 一 个 具 
有 混合 动力 核心 的 异 构 体系 结构 ， 具 有 单独 的 传感器 忆 片 ，GPU 以 及 把 工作 的 不 同 部 分 分 配给 最 有 效率 部 件 的 数字 信号 处 理 器 。 手 机 越 来 越 多 的 成 为 通信 中 心 和 其 他 附件 
设备 的 信号 处 理 的 门户 设备 ， 例 如 生物 可 穿戴 设备 和 迅速 增长 的 超 低 功 率 ( 物 联网 ) 传 感 设备 ， 使 我 们 当地 环境 的 方方面面 变 得 更 快捷 。 


当 我 们 寻求 利用 移动 设备 的 分 布 式 计算 能 力 时 ， 在 移动 设备 上 运行 R 的 时 刻 融 离 我 们 不 远 了 。 仪 在 2014 年 ， 大 约 12.5 亿 个 智能 手机 被 出 售 。 它 们 在 一 起 是 超级 巨大 的 
计算 能 力 ， 可 能 远 远 超过 任何 星球 上 的 或 现 有 的 或 计划 的 超级 计算 机 。 

软件 使 我 们 能 够 利用 并 行 系统 ， 像 我 们 指出 的 越 来 越 多 的 异 质 性 将 会 继续 友 展 。 在 本 书 中 ， 我 们 研究 了 如 何 利用 来 自 R 的 OpenCL 来 获得 GPU 和 CPU 的 访问 权限 ， 使 
尼 在 两 个 组 件 之 间 进 行 渴 合 计算 并 利用 某 些 处 理 类 型 的 每 一 个 特定 优势 。 事 实 上 ， 另 一 个 相关 的 主动 性 、 异 构 系 统 架 构 (HSA) ， 在 未 来 几 年 ， 使 得 即使 较 低 的 访问 处 理 
器 的 能 力 可 能 很 好 的 获得 牵引 力 ， 并 有 助 于 促进 OpenCL 和 同行 程序 的 摄取 。 


尽 一 异 构 系统 架构 基金 会 


异 构 系 统 架 构 (HSA) 基金 会 是 由 一 个 由 AMD、ARM、Imagination、 联 发 科技 、 高 通 、 三 星 和 德州 仪器 领导 的 跨行 业 集团 。 其 既定 的 目标 是 帮助 支持 开发 下 述 应 用 : 
通过 高 带宽 共享 内 存 访问 ， 把 在 CPU 上 的 标量 运算 、 在 GPU 上 的 并 行 处 理 以 及 在 DSP 的 优化 处 理 的 无 颖 结合 ， 从 而 在 低能 耗 设 备 上 获得 极 大 的 应 用 性 能 。 


为 了 实现 这 一 目标 ， 通 过 使 用 CPU、GPU、DSP 等 可 编程 和 固定 功能 设备 ，HSA 基 金 会 定义 了 并 行 计算 的 关键 接口 ， 从 而 支持 一 组 不 同 的 高 级 编程 语言 和 创建 下 一 代 
通用 计算 。 你 可 以 在 以 下 链接 找到 最 近 发 布 的 HSA1.0 版 本 的 规范 : 


http://www.hsafoundation.com/html/HSA_Library.htm 


6.6.5 ”混合 并 行 性 


作为 一 个 最 后 总 结 ， 我 将 会 展示 如 何 进一步 克服 一 些 R 单 线程 固有 的 弱点 ， 并 证 明 一 个 混合 并 行 方 法 ， 这 个 方法 结合 了 包含 以 前 的 单一 R 程 序 在 内 的 两 个 不 同方 法 。 我 
们 同样 也 讨论 了 异 构 计算 是 在 未 来 中 有 潜力 的 一 种 方法 。 

这 个 例子 提 到 了 第 5 章 中 开发 的 代码 ， 并 通过 pbdMPI 和 和 RopenCL 利 用 MPI 同 时 开发 CPU 和 GPU。 虽 然 这 是 一 个 人 造 的 例子 ， 两 个 设备 计算 具有 相同 的 dist () A, 
但 目的 是 展示 在 多 大 范围 内 你 可 以 用 R 得 到 最 多 可 用 的 计算 资源 。 


从 根本 上 说 ,我 们 需要 做 的 是 用 合适 的 pbdMPI 初 始 化 和 终止 的 开放 CL 中 超越 并 追踪 我 们 实施 的 功能 函数 ， 在 两 个 进程 中 用 mpiexec 运 行 脚本 (例如 ，moiexec-np 
2Rbcript chapter 6-hybrid.R) ， 如 下 代码 所 示 : 


# Initialise both ROpenCL and pbdMPI 
require (ROpenCL) 

library (pbdMPI, quietly = TRUE) 

init () 

# Select device based on my MPI rank 
r <- comm.rank() 

if (r == 0) ( # use gpu 

device <- 1 

) else ( # use cpu 

device «- 2 


} 


# Main body of OpenCL code from chapter 6 


# Execute the OpenCL dist() function on my assigned device 

comm.print (sprintf ("%d executing on device %s", r, 
getDeviceType(deviceID)), all.rank = TRUE) 

res <- teval(openclDist (kernel) ) 

comm.print(sprintf("%d done in %f secs",r,res$Duration), all.rank = TRUE) 


finalize() 


jc MIF ia BARR AR! 


6.7 hi 


MOSSE] 


本 书包 含 了 平行 性 的 许多 不 同方 面 ， 包 括 具 有 parallel 添 加 包 的 R 的 内 置 多 核能 力 、 使 用 MPI 标 准 的 消息 传递 、 基 于 带 有 Open CL 的 通用 GPU 的 并 行 性 。 我 们 也 开发 了 
来 自负 载 均衡 的 不 同 框架 方法 的 并 行 性 ， 通 过 任务 场 到 具有 网 格 布局 的 空间 处 理 ， 使 用 segue 添 加 包 应 用 Hadoop 以 及 应 用 云 计 算 中 的 热门 技术 Apache Spark (更 适用 于 
大 量 实时 数据 处 理 ) 来 进行 通用 批量 数据 处 理 ，Apache Spark 更 适用 于 大 量 实时 数据 处 理 。 


你 现在 应 该 对 这 些 不 同 的 并 行 方法 有 一 个 广泛 的 理解 ， 了 解 它们 适合 于 不 同类 型 的 工作 负 奏 ， 如 何 处 理 兼 具 均 衡 和 不 均衡 工作 负 答 以 确保 最 大 效率 ， 如 何 使 用 这 些 来 
上 自 R 的 支撑 技术 (使 用 SPMD 和 SIMD 向 量 处 理 ) 来 应 用 在 你 PC/GPU 上 的 多 个 核心 。 


我 们 同样 也 了 解 了 最 新 的 知识 ， 了 解 了 今天 的 异 构 计算 硬件 的 前 景 ， 它 们 不 仪 在 我 们 的 笔记 本 和 超级 计算 机 中 ， 甚 到 在 将 来 还 会 扩展 到 我 们 的 私人 设备 中 。 并 行 是 在 
这 些 系统 中 唯一 一 个 可 以 被 有 效 利用 的 方法 。 


随 着 源 于 体积 、 数 量 、 环 境 友 好 的 数据 的 增加 ， 计 算 机 内 核 的 数量 会 继续 增加 ， 因 此 编写 并 行程 序 并 完全 利用 它们 的 能 力 十 分 重要 ， 同 样 这 种 并 行程 序 员 的 良好 的 工 
作 安 全 感 需 要 多 年 来 实现 。 


最 重要 的 是 ， 我 们 希望 这 本 书 会 帮助 你 开局 一 段 捍 有 成 效 的 旅程 ， 运 用 并 行 去 解决 企 用 R 进 行 的 数据 科学 中 所 遇 到 的 最 困难 问题 ， 出 友 、 进 行 你 的 计算 吧 ! 


